2010-06-24 67 views

回答

2

一種方法是有一個巨大的矩陣,其中每一行是一個文檔,每列是一個字。單元格中的值是單詞在該文檔中顯示的次數。然後,如果你正在處理「監督式學習」的情況,你應該有另一個分類器的列,從那裏你可以使用像「rpart」(來自rpart包)的命令來創建你的分類樹。該命令將以與線性模型(lm)相似的方式輸入一個rpart公式。

如果你願意,你也可以嘗試先將你的單詞分組爲「單詞組」,然後讓每一列屬於不同的單詞組,並用數字表示文檔中有多少單詞屬於組。爲此,我會看看「tm」包。 (如果你最終做用的東西,請考慮也許張貼約在這裏,所以我們可以從中學習)

最佳, 塔爾

+0

Hi Tal, 感謝指針,實際上我確實計算了一個文檔文檔矩陣和一個最常見的共現詞的關聯矩陣。必須仍然計算出樹木,但我正朝着你指出的方向前進。此外,tm包中的功能也很有幫助。一旦我得到一些結果,我會在這裏發佈代碼。 - Neo – 2010-06-25 14:19:22

+0

我很高興Neo :) – 2010-06-25 15:07:48

+1

決策樹有一個問題 - 它們很容易過度配合。我建議你嘗試隨機森林方法(在randomForest包中的AV),它沒有這個缺點。 – mbq 2010-06-25 22:43:37

0

我對此表示懷疑 - 至少像通常定義的那樣,決策樹使用單一標準來指定子分支。在對文檔進行分類時,很少有很多內容可以基於單一標準 - 您需要多個標準,即使這樣,您也不會得到明確的樹狀決策,但「這比這更接近於另一件事「的結果。

+0

我認爲OP比分析樹更多地提到分類樹。這裏的術語含糊不清。 – 2010-06-25 01:54:45

+0

...正如本維基百科頁面第二段所述:http://en.wikipedia.org/wiki/Decision_tree_learning – 2010-06-25 01:55:53

+0

是的,我同意馬特在我的部分有點模糊不清,我的意思是分類文件使用決策樹。 – 2010-06-25 03:35:26

2

本文給出了不同的文本分類技術及其精度的調查。總之,你可以用決策樹對文本進行分類,但還有其他算法更好。

Sebastiani,F.(2002)。在自動文本分類中進行機器學習。 ACM Computing Surveys,cs.IR/0110053v1。可用的:http://arxiv.org/abs/cs.IR/0110053v1