1

用於羣集文本文檔的文檔的其他功能表示是什麼?我知道的唯一表示是tf-idf。還有其他的嗎?其他文檔功能比tf-idf的集羣?

+0

這個問題不是編程問題,比較適合[Cross Validated](http://stats.stackexchange.com/)。 – ogrisel

回答

0

不是真正的加權(或它的極端版本​​),但我注意到修剪頻繁的特徵使用k-means更穩定的文檔聚類:例如,您可以嘗試修剪所有非零的特徵%以上的文件。

+0

我不明白你的意思,你能舉個例子嗎? –

+0

計算每個特徵的文檔頻率(與計算TF-IDF的IDF一樣),並用'df> 0.5'清零或刪除所有特徵。 – ogrisel