我在嘗試對Twitter流進行聚類。我想將每條推文放到討論同一主題的羣集中。我嘗試使用tf/idf和餘弦相似度的在線聚類算法對流進行聚類,但是我發現結果非常糟糕。更好的文本文件聚類比tf/idf和餘弦相似?
使用tf/idf的主要缺點是,它將與關鍵字相似的文檔聚類在一起,因此只需識別幾乎相同的文檔即可。例如考慮以下句子:
1-網站Stackoverflow是一個不錯的地方。 012-2- Stackoverflow是一個網站。
預先使用的兩個句子可能會與一個合理的閾值聚集在一起,因爲它們共享了很多關鍵字。但現在考慮以下兩句話:
1-網站Stackoverflow是一個不錯的地方。我定期訪問Stackoverflow。
現在通過使用tf/idf,聚類算法將失敗,因爲他們只共享一個關鍵字,即使他們都談論同一主題。
我的問題:是否有更好的技術來聚類文件?
@ThomasJungblut好吧,TF-IDF應該是一個加權計劃,已經給相關關鍵字更多的權重。如果認爲問題在於推文只是如此細小的文本片段,那麼除了「近身份」之外,你不能指望它們的相似性能夠很好地發揮作用。大多數推文甚至不是完整的句子,所以NLP很可能也會失敗。 –
有關LSI/LDA/NMF等的一件事就是話題漂移。如果管道未正確完成,在已知數據集上訓練模型將產生良好結果。如果您將模型應用於完全不可見的數據集,則由於擬合了原始訓練數據,您可能會看到性能顯着下降。由於Twitter文本太短,因此表示法需要一點小竅門,因爲可能沒有足夠的文本來正確地訓練模型。 – Steve
@steve是否有解決方案? –