決策樹的文檔分類
回答
一種方法是有一個巨大的矩陣,其中每一行是一個文檔,每列是一個字。單元格中的值是單詞在該文檔中顯示的次數。然後,如果你正在處理「監督式學習」的情況,你應該有另一個分類器的列,從那裏你可以使用像「rpart」(來自rpart包)的命令來創建你的分類樹。該命令將以與線性模型(lm)相似的方式輸入一個rpart公式。
如果你願意,你也可以嘗試先將你的單詞分組爲「單詞組」,然後讓每一列屬於不同的單詞組,並用數字表示文檔中有多少單詞屬於組。爲此,我會看看「tm」包。 (如果你最終做用的東西,請考慮也許張貼約在這裏,所以我們可以從中學習)
最佳, 塔爾
我對此表示懷疑 - 至少像通常定義的那樣,決策樹使用單一標準來指定子分支。在對文檔進行分類時,很少有很多內容可以基於單一標準 - 您需要多個標準,即使這樣,您也不會得到明確的樹狀決策,但「這比這更接近於另一件事「的結果。
我認爲OP比分析樹更多地提到分類樹。這裏的術語含糊不清。 – 2010-06-25 01:54:45
...正如本維基百科頁面第二段所述:http://en.wikipedia.org/wiki/Decision_tree_learning – 2010-06-25 01:55:53
是的,我同意馬特在我的部分有點模糊不清,我的意思是分類文件使用決策樹。 – 2010-06-25 03:35:26
本文給出了不同的文本分類技術及其精度的調查。總之,你可以用決策樹對文本進行分類,但還有其他算法更好。
Sebastiani,F.(2002)。在自動文本分類中進行機器學習。 ACM Computing Surveys,cs.IR/0110053v1。可用的:http://arxiv.org/abs/cs.IR/0110053v1。
- 1. 隨機決策樹分類
- 2. 完美的決策樹分類
- 3. 帶分類變量的Spark決策樹
- 4. SKLearn決策樹分類深度/訂購
- 5. 傳遞分類數據Sklearn決策樹
- 6. 處理決策樹的分類特徵的策略?
- 7. J48決策樹
- 8. 決策樹jQuery
- 9. 文字分類方法? SVM和決策樹
- 10. 決策樹。噪聲策略
- 11. scikit學習決策樹導出graphviz - 決策樹中錯誤的類名稱
- 12. Adaboost決策樹/樹樁
- 13. 微軟商業智能 - 決策樹 - 「決策樹沒有發現模型拆分」
- 14. 決策樹問題解決
- 15. 決策樹:細化
- 16. 決策樹結果
- 17. weka決策樹java
- 18. 建模決策樹
- 19. 決策樹修剪
- 20. 修剪決策樹
- 21. Python決策樹GraphViz
- 22. 決策樹組件
- 23. 決策樹執行
- 24. 執行決策樹
- 25. Classifcation /決策樹和選擇拆分
- 26. 該任務的決策樹相關分類?
- 27. 關於從命令行顯示分類/決策樹的方法?
- 28. 如何處理決策樹中的多個分類特徵?
- 29. 當不以規則爲基礎的分類優於決策樹?
- 30. 什麼是決策樹中的多元分類?
Hi Tal, 感謝指針,實際上我確實計算了一個文檔文檔矩陣和一個最常見的共現詞的關聯矩陣。必須仍然計算出樹木,但我正朝着你指出的方向前進。此外,tm包中的功能也很有幫助。一旦我得到一些結果,我會在這裏發佈代碼。 - Neo – 2010-06-25 14:19:22
我很高興Neo :) – 2010-06-25 15:07:48
決策樹有一個問題 - 它們很容易過度配合。我建議你嘗試隨機森林方法(在randomForest包中的AV),它沒有這個缺點。 – mbq 2010-06-25 22:43:37