我想用搜索查詢日誌做一些研究。我的第一個興趣是發現趨勢。例如:在冬天,人們經常感冒。所以我想在冬天我們可以看到這類查詢的增長。查找搜索引擎查詢日誌的趨勢
如何我想探測的發展趨勢:
- 使用apriory算法或收穫的人設置一個頻繁項。
- 在一個時間範圍內的每個組(一小時,一天等)
- 使用線性迴歸來發現相對函數變化 的計數數,如果這是一個迴歸AX + b,則我們只是計算(A *(FIRST_DATE )+ b)/(A *(SECOND_DATE)+ b)
所以我有一個問題: 這很難在大型數據集(我有百萬的查詢)的設置中發現頻繁項。我已經實施了apriory算法,但它的工作速度很慢,支持度低(例如,對於200k查詢中的2個查詢可能需要一天)
對我而言,什麼是最佳算法?也許我可以用另一種方式解決我的任務?
@Yavar我只有一臺機器(或兩個)。所以這就是爲什麼我不能分發。 – Neir0