-2

是否有任何可用於改善文檔聚類結果的人工智能算法?用於聚類的算法可以是分層的或任何其他的。文檔聚類

謝謝

回答

5

The Wikipedia article on document clustering包括鏈接從弗吉尼亞理工大學2007年的論文由尼古拉斯·安德魯斯和愛德華·福克斯稱爲「Recent Developments in Document Clustering」。我不確定具體是什麼你會被稱爲「人工智能算法」,但掃描論文的內容表明他們看向量空間模型,kmeans的擴展,生成算法,譜聚類,降維,基於相位的模型和對比分析。這是一個相當數學上密集的處理,但他們很小心地引用他們談論的算法。

2

聚類確實是AI域中的一類問題。如果你想降低一級,你可以說它在機器學習領域。從這個意義上講,AI不會改進文檔聚類,但可以解決它! Dumbledad mentions一些基本的選擇,但你每次的數據類型可能會更好地用不同的算法處理。這個問題有很多基於k-means的方法。在這種情況下需要仔細播種。球形k-均值(搜索Dhillon的論文)是一種簡單而標準的方法。其他擴展名是k-synthetic prototypes

子空間聚類也是一個很好的嘗試,一般來說,如果您想要比「文檔聚類」文獻檢查「高維和稀疏數據空間中的聚類」更進一步。