2013-07-06 62 views
0

我正在實時聚集數據流,更準確地說Twitter流。隨着數據點(推文)從流中到達,一個點將被分配給最相似的簇。在聚類過程中,我會隨着時間的推移跟蹤所有羣集的大小。每當一個集羣的大小超過所有大小的均值時,我就會將這個集羣聲明爲重要集羣或趨勢集羣。然而,我無法找到一種方法來將此羣集聲明爲非趨勢或無關緊要,如果它的大小在一段時間內保持靜態。因爲如果它保持不變,這意味着人們不會發布關於這個話題的推文,但是它的大小仍然會高於平均值,因此它仍然是一個趨勢集羣,即使它不是。如何確定羣集在聯機羣集中不重要?

我想要解決這個問題的一種方法是通過聲明一個類似於10分鐘的週期參數來查看它的大小是否保持不變,然後我聲明它不增加,因此我將它從趨勢列表中刪除。

我想知道是否有更好的方法來處理這個問題比周期參數甚至如何確定週期參數?

+0

看來你的問題的主題更多地與趨勢檢測相關,而不是聚類。如果是這樣的話,我會建議重新發佈一個不同的主題,正如@ Anony-Mousse所說的 - 你可能還想給你想要建模的東西多一些顏色。 – etov

回答

0

這完全取決於您的應用程序什麼適當的規則來忘記舊的羣集。

沒有我們可以分享的一般規則。有些人會希望永遠保持集羣,其他人有元素年齡,並且一旦集羣縮小到閾值以下就會解散集羣。而且你顯然希望一旦它不再長大,就會忘記它。

這取決於你,你想要的模型。

+0

你的意思是「我想要的模型」。建模究竟是什麼? –