我正在實時聚集數據流,更準確地說Twitter流。隨着數據點(推文)從流中到達,一個點將被分配給最相似的簇。在聚類過程中,我會隨着時間的推移跟蹤所有羣集的大小。每當一個集羣的大小超過所有大小的均值時,我就會將這個集羣聲明爲重要集羣或趨勢集羣。然而,我無法找到一種方法來將此羣集聲明爲非趨勢或無關緊要,如果它的大小在一段時間內保持靜態。因爲如果它保持不變,這意味着人們不會發布關於這個話題的推文,但是它的大小仍然會高於平均值,因此它仍然是一個趨勢集羣,即使它不是。如何確定羣集在聯機羣集中不重要?
我想要解決這個問題的一種方法是通過聲明一個類似於10分鐘的週期參數來查看它的大小是否保持不變,然後我聲明它不增加,因此我將它從趨勢列表中刪除。
我想知道是否有更好的方法來處理這個問題比周期參數甚至如何確定週期參數?
看來你的問題的主題更多地與趨勢檢測相關,而不是聚類。如果是這樣的話,我會建議重新發佈一個不同的主題,正如@ Anony-Mousse所說的 - 你可能還想給你想要建模的東西多一些顏色。 – etov