我已閱讀了大量有關算法和用於計算文本趨勢的廣義方法的文章,但我需要一個實用的簡單示例使用PHP來做到這一點。使用PHP確定用戶文本數據庫中的趨勢
One post that was more helpful than the rest建議標準化每個文本,然後破各成基於字陣列(filering出鏈接,用戶名等)之後,從每個消息建立一個大陣列中的每個字的,然後使用array_count_values找到哪些詞最頻繁的。這似乎是可行的,但我不知道這是否是最好的方法。例如,似乎贊成單詞結果而不是短語(「Barack」和「Obama」而非「Barack Obama」)。
有沒有比這更好的方法呢?我可能會使用的一個實際示例或預先存在的解決方案(腳本或類)?謝謝!
感謝您的答覆付出了沉重的代價。我不明白爲什麼沒有爲此而開發更簡單的解決方案。它不需要成爲最複雜的解決方案(例如Twitter的趨勢),但需要有所作爲。 :/ – mcleodm3
如果他們沒有獲得大量的文本數據,Twitter將無法做到這一點。每個人都在談論'奧巴馬',他們可以接受這一趨勢,但有趨勢的是你需要有歷史數據來支持它,並從 – adlawson