2011-06-25 57 views
3

我已閱讀了大量有關算法和用於計算文本趨勢的廣義方法的文章,但我需要一個實用的簡單示例使用PHP來做到這一點。使用PHP確定用戶文本數據庫中的趨勢

One post that was more helpful than the rest建議標準化每個文本,然後破各成基於字陣列(filering出鏈接,用戶名等)之後,從每個消息建立一個大陣列中的每個字的,然後使用array_count_values找到哪些詞最頻繁的。這似乎是可行的,但我不知道這是否是最好的方法。例如,似乎贊成單詞結果而不是短語(「Barack」和「Obama」而非「Barack Obama」)。

有沒有比這更好的方法呢?我可能會使用的一個實際示例或預先存在的解決方案(腳本或類)?謝謝!

回答

0

如果沒有先收集大量關於單詞和短語的數據,您要求的內容很難自動完成。

除非您願意花費大量的時間,金錢和不間斷的資源來實現自動化,否則我會建議手動創建一個應該算作短語的單詞列表(例如,如果Barack和Obama是相鄰,將其解壓爲Barack Obama),或者只是忘記了整個事情,並按照文章解釋的方式進行。

有可能是外部服務,可以在你所希望的方式解析數據,但毫無疑問,他們會

+0

感謝您的答覆付出了沉重的代價。我不明白爲什麼沒有爲此而開發更簡單的解決方案。它不需要成爲最複雜的解決方案(例如Twitter的趨勢),但需要有所作爲。 :/ – mcleodm3

+0

如果他們沒有獲得大量的文本數據,Twitter將無法做到這一點。每個人都在談論'奧巴馬',他們可以接受這一趨勢,但有趨勢的是你需要有歷史數據來支持它,並從 – adlawson