用於羣集文本文檔的文檔的其他功能表示是什麼?我知道的唯一表示是tf-idf。還有其他的嗎?其他文檔功能比tf-idf的集羣?
1
A
回答
0
不是真正的加權(或它的極端版本),但我注意到修剪頻繁的特徵使用k-means更穩定的文檔聚類:例如,您可以嘗試修剪所有非零的特徵%以上的文件。
+0
我不明白你的意思,你能舉個例子嗎? –
+0
計算每個特徵的文檔頻率(與計算TF-IDF的IDF一樣),並用'df> 0.5'清零或刪除所有特徵。 – ogrisel
相關問題
- 1. 按羣組劃分的PySpark平均TFIDF功能
- 2. 集羣gmetad和其他gmetad
- 3. Solr中的羣集文檔
- 4. 繪製文檔tfidf 2D圖
- 5. 功能與其他功能
- 6. 結合Sklearn TFIDF與其他數據
- 7. Smarty的電話功能,其他功能
- 8. Quanteda:文檔功能矩陣與預定義的功能集
- 9. 使用功能散列的羣集
- 10. 從nodejs中的其他js文件訪問其他js功能
- 11. 用Scikit確定新文檔的集羣
- 12. 的OnClick其他功能 - JS
- 13. 允許elasticsearch集羣只能通過其他服務器
- 14. 其他功能後加載javascript功能
- 15. Javascript功能停止其他功能
- 16. 將所有文檔與Perl的Text中的其他文檔進行比較:: DocumentCollection
- 17. 功能與在其他數據文件
- 18. 將文本功能名稱鏈接到它們的tfidf值
- 19. model.frame.default帶集羣功能錯誤
- 20. 獲取Openlayer矢量功能與羣集
- 21. 將功能添加到ESB羣集
- 22. 關於Datastax「監控Cassandra羣集」文檔
- 23. CouchDB文檔/功能
- 24. MySQL集羣比InnoDB的
- 25. ggplot2 lazyeval其他功能
- 26. jquery點擊其他功能
- 27. 訪問其他功能
- 28. php - proc_open(或其他功能)
- 29. 調用其他類功能
- 30. 如何在其他功能
這個問題不是編程問題,比較適合[Cross Validated](http://stats.stackexchange.com/)。 – ogrisel