AI 專案撞牆紀錄:零成本社群監測的天花板在哪裡
跨語言社群聲量分析系統的 pipeline 跑通了,用真實競品資料產出了一份完整的輿情報告。技術上沒問題。但報告品質揭露了一個結構性限制:零成本的社群資料蒐集有天花板,而且這個天花板比我預期的低很多。這篇記錄我怎麼診斷問題、研究業界做法、重新定位系統價值。
Pipeline 跑通了
先講好消息。前兩篇設計的四模組線性 pipeline — 蒐集層(Python 爬蟲)→ 分析層(Claude API)→ 洞察層(Claude API)→ 報告產出(Markdown)— 用真實競品的資料跑了完整流程,產出了一份可以拿去做決策的輿情分析報告。
四個資料來源全部接通:社群媒體、App Store、Google Play、產品資訊網站。蒐集、分析、洞察、報告產出,端到端沒有卡住。技術架構是通的。
報告品質:有驚喜也有問題
驚喜的部分
水軍過濾在運作。121 則商店評論中過濾掉 29 則(24%)可疑評論。不是隨便過濾的 — 被標記的確實是模板化內容、評分與文字矛盾、缺乏產品具體描述的評論。這代表分析層的 credibility 判斷邏輯是有效的。
iOS 和 Android 分開處理揭露了有價值的差異。iOS 負面率 65.2%,Android 負面率 48.7%。如果合併計算只會看到一個平均數,分開後才發現兩個平台的用戶情緒有結構性差異。這驗證了架構設計階段「兩個平台獨立處理」的決策。
跨平台一致性的具體洞察。在不同平台上發現了 8 則以上一致提到的特定功能設計缺陷。跨平台的一致性代表這不是個別用戶的主觀感受,而是可以量化的產品問題。
行動建議有數據支撐。報告產出的三條行動建議都有具體數據佐證,可以直接拿去做決策。這是最重要的驗證 — 系統的目標不是產出數據,而是產出「可行動的洞察」,這一點做到了。
問題的部分
社群媒體只拿到 6 則可信評論。6 則。完全不夠做任何有意義的分析。這是整份報告最大的缺口。
商店評論天然偏負面。整體 55.4% 的負面率看起來很高,但要注意:會主動去寫評論的人大多是不滿意的用戶,滿意的用戶通常不會特意去留好評。這個偏差不是系統的問題,但代表商店評論不能直接代表全體用戶的真實態度。
產品資訊網站雜訊率 93.3%。15 則內容中只有 1 則是真實用戶評論,其餘都是官方攻略或編輯內容。這個來源的資料價值遠低於預期。
診斷:社群媒體為什麼只有 6 則
6 則這個數字明顯不對。社群媒體上一款熱門產品的討論量不可能這麼少。問題出在哪裡?
我做了系統性診斷:
先查蒐集 log。原始搜尋結果有 15 則,套用 30 天時間過濾後剩下 6 則。所以不是搜尋策略完全失效,而是有效結果量太少。
測試了 7 種不同的搜尋策略。直接搜產品名稱、加上「感想」「評價」等關鍵字、用 hashtag、用具體問題描述、用 Google site: 限定搜尋範圍⋯⋯每種策略都試了。
發現瓶頸。搜尋 API 有硬限制:每次查詢最多回傳 10 則結果,無法翻頁取得更多。而且搜尋結果被官方帳號的貼文佔據排名,真正有分析價值的用戶討論被擠到後面。
結論:這不是搜尋策略的問題,是蒐集方式的結構性限制。用搜尋引擎去找社群內容,跟直接存取社群平台的資料是完全不同的事。搜尋引擎是為了「找特定資訊」設計的,不是為了「大量蒐集社群討論」設計的。
研究業界做法:別人怎麼解決的
診斷完問題後,我去研究了市面上的社群監測工具是怎麼做資料蒐集的。
它們的做法分三層:
第一層:官方合作夥伴。有些公司直接跟社群平台建立合作關係,拿到官方授權的資料存取管道。這給的資料量和品質都是最好的,但需要商業合作和認證。
第二層:自建爬蟲基礎設施。專門做網路資料蒐集的公司,用旋轉式住宅 IP、瀏覽器指紋偽裝等技術繞過反爬蟲機制,成功率大約 88-91%。這需要大量的基礎設施投入。
第三層:SaaS 工具。整合上述兩種資料來源,提供現成的分析介面。定價從 $200 到 $1,000+ 美金/月起。
看完之後我理解了:我試圖用零成本做到這些公司花幾百到幾千美金/月做的事。搜尋 API 是搜尋引擎,不是社群爬蟲,用途根本不對。這不是技術能力的問題,是投入資源的問題。
重新定位:從這個經歷學到什麼
撞牆之後,我重新梳理了這個系統的定位和價值。
蒐集層是「buy」的問題,分析層才是「build」的問題
專業工具的資料蒐集能力靠的是基礎設施投入和官方合作關係 — 這些不是一個人能複製的,也不需要複製。但它們的分析和洞察層 — 情感分析、主題分類、水軍過濾、行動建議 — 這些恰恰是 AI 的價值所在,也是這套系統已經驗證了品質的部分。
真實競品報告的三條行動建議都有數據支撐且可執行。分析層能把 24% 的水軍過濾掉。洞察層能從跨平台數據中找到一致性的產品問題。系統的核心價值在分析和洞察,不在蒐集。
MVP 的正確姿勢是先驗證價值,再投入資源
如果是企業場景,正確的做法是:先用低成本方式驗證「有了這份報告,決策品質是否提升」。驗證通過後,再去採購專業的資料來源。全量社群監測的成本是每月 $200 到 $5,000,這是行業標準,不是技術問題。
我這次做的事情,本質上就是在花最少的成本驗證「分析和洞察層有沒有價值」。答案是有。下一步不是繼續用零成本方案硬撐,而是帶著這個驗證結果去評估資料採購的 ROI。
不同產業的適用性不同
有大量公開用戶討論的消費性產品:社群聲量分析最有價值,因為資料量充足、用戶願意主動表達意見。
B2B 產品(伺服器、企業軟體):公開討論量少,最有價值的回饋在私有管道 — 客服工單、業務回報、NPS 調查。社群聲量分析的框架通用,但資料來源需要按產業調整。
撞牆本身就是 PM 的日常
「做不到老闆想像的那個樣子」不是失敗,是發現真實限制。PM 的價值不是保證所有計畫都如預期進行,而是在遇到限制時能帶著替代方案回來:「全量監測要 $X/月,但我驗證了一個十分之一成本能做到七成效果的方案,以下是數據。」
我的觀點
這次驗證讓我重新理解了一件事:MVP 的目的不是證明「這個東西能做」,而是找出「做到什麼程度需要多少資源」。
如果我一開始就去買 $1,000/月的社群監測工具,pipeline 跑出來的報告一定更漂亮。但我不會知道「零成本能做到什麼程度」、「天花板在哪裡」、「花錢買的到底是什麼」。這次驗證讓我精確地知道:蒐集層的天花板是結構性的,不是靠優化搜尋策略能突破的;但分析和洞察層的品質已經達到可用標準。
這個資訊比「一開始就做對」更有價值。因為它讓我能做出有數據支撐的資源分配決策,而不是靠直覺猜。
對企業來說,AI 專案的風險不在於技術失敗,而在於不知道失敗在哪裡就繼續投入。一個跑通的 prototype 加上一份誠實的限制報告,比一個沒驗證過的完美計畫有用得多。
常見問題 FAQ
既然社群媒體資料不夠,報告還有用嗎?
有用,但要看你怎麼用。商店評論和產品資訊網站的資料已經能產出有行動價值的洞察 — 跨平台的一致性問題、iOS 和 Android 的情緒差異、水軍過濾後的真實負面反饋。社群媒體那一塊的缺口代表你看不到「討論的廣度」(有多少人在聊),但商店評論能告訴你「意見的深度」(用戶具體在抱怨什麼)。兩者互補,不是只有社群媒體有價值。
如果要補齊社群媒體資料,最低成本的方案是什麼?
最務實的做法是先評估需求量級。如果只需要每週追蹤幾款競品,入門級的 SaaS 工具($200/月級別)可能就夠了。如果需要全量即時監測,那就是 $1,000+/月的預算。關鍵是先用現有的低成本方案驗證「這份報告對決策有沒有幫助」,驗證通過後再按需採購。不要還沒確定報告有用就先花錢買資料。
這套系統最終的定位是什麼?
一個已驗證分析和洞察能力的 AI pipeline,可以對接任何資料來源。蒐集層是可替換的模組 — 現在用零成本方案,未來可以接入付費的資料 API 或企業內部的資料管道。核心價值在分析和洞察層:把非結構化的多語言社群內容,轉化成有數據支撐的中文行動建議。這一層已經跑通並驗證了品質。