如果時間不是一個因素,哪個是最好的文檔分類方法,我們不知道有多少類?文本分類,包括預處理
回答
在我的(不完整的)知識中,如果您不知道有多少類,那麼分層凝聚聚類是最好的方法。所有其他聚類算法要麼需要事先了解桶的數量,要麼需要某種交叉驗證或其他實驗來確定桶的合理數量。
+1。儘管平面聚類,但有時推薦N項的sqrt(N)作爲聚類數量。 – 2011-04-11 21:03:01
如何使用Growing Som算法進行實際聚類,然後使用HAC的自下而上方法?這樣我們就不必猜測集羣的數量。 – Evan 2011-04-11 21:07:26
我對Growing Som沒有背景,所以我無法就此提出任何建議。 – bmargulies 2011-04-11 21:17:29
交叉鏈接:請參閱SO上的how-do-i-determine-k-when-using-k-means-clustering。
謝謝!儘管我已經開始逐漸增長。這對確定起始網格大小將有所幫助。 – Evan 2011-04-13 19:06:55
- 1. 文本分類 - 標籤預處理
- 2. 文本預處理
- 3. Python:預處理文本
- 4. 包括與VSIX的批處理文件
- 5. PHP - 處理POST和頭文件包括
- 6. 包含文件的預處理器
- 7. C預處理器計算特定產品包括
- 8. PHP - PDO:MySQL的記錄預處理語句包括PS數據
- 9. 預處理SSI包括在網站建設過程中,從SVN
- 10. 包括一個預處理器指令中的靜態庫
- 11. 使用預處理器定義包括目錄
- 12. 包括逆天的#ifndef的#define語句預處理
- 13. 的預處理器串聯包括路徑
- 14. 預處理器包括:當使用<>或 「」
- 15. 使用text2vec包進行文本預處理和主題建模
- 16. 翻譯文本的部分,包括HTML
- 17. 此處預處理文檔
- 18. TextWatcher.onTextChanged()如何處理預測文本?
- 19. 如何預處理嵌入文本?
- 20. 使用預處理器部分處理文件
- 21. 將文本和背景分割爲OCR(Tesseract)的預處理
- 22. 預先加載包括派生類
- 23. 包括如預期
- 24. 梳理包括php文件
- 25. 處理通知包括循環引用
- 26. 處理包括/需要指令在PHP
- 27. 光油未處理ESI包括
- 28. 口譯員:處理包括/進口
- 29. 何時包括處理靜態函數?
- 30. GNU gcc編譯器無法處理部分包括報表
我們也不知道這些話題。 – Evan 2011-04-11 20:59:27
我們不知道有多少類有聚類,然後是類標籤 – Evan 2011-04-11 21:00:20