我正在使用doc2vec轉換我的追隨者在向量表示中的前100個推文(稱爲v1 ..... v100)。之後,我使用向量表示來完成K均值聚類。如何在使用Doc2vec後解析羣集結果?
model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)
我可以看到集羣0被某些值(比如v10,v12,v23,...)所支配。我的問題是這些v10,v12 ...等代表什麼。我可以推斷出這些具體的列集合文檔的特定關鍵字。
不,只有少數算法如k-means會將所有點分配給k個簇。很多現代算法都沒有。即使使用k-means,這些集羣也有一些意義。通過word2vec映射回原始數據空間並不容易。 –
我想要使用他們的推文內容分割類似的追隨者。有幾種方法可以找到數據中最佳的羣集數量。所以我不同意集羣是完全沒用的。我只是試驗看doc2vec是否可以做出更好的分割,當然它應該對用戶感興趣的主題進行某種分類。 –