在R中使用tm和rpart：文本數據的決策樹？

我使用R中的tm包創建文本文檔的語料庫，我想創建一個用於分類的rpart決策樹。然而，我在互聯網上找不到任何關於rpart使用文本數據的例子。它甚至有可能或者我可以使用其他軟件包嗎？在R中使用tm和rpart：文本數據的決策樹？

來源

2017-03-03 vdvaxel

你在哪裏看？應該有[幾個例子]（https://www.google.com/search?q=「DocumentTermMatrix」+「rpart」） – lukeA

這裏有一個首發：

library(tm) 
library(rpart) 
docs <- c(txt1="Hello world", txt2="lorem ipsum") 
dtm <- DocumentTermMatrix(Corpus(VectorSource(docs)), control = list(weight = weightBin)) 
m <- as.matrix(dtm) 
train <- as.data.frame(m) 
train$Docs <- factor(rownames(m), labels=names(docs)) 
fit <- rpart(Docs~.,data=train, control = rpart.control(minsplit=1)) 
test <- data.frame(hello=c(1,0),world=c(0,0),ipsum=c(0,1),lorem=c(0,0), row.names=letters[1:2]) 
predict(fit, newdata=test, type="class") 
# a b 
# txt1 txt2 
# Levels: txt1 txt2

來源

2017-03-03 12:11:54 lukeA

你需要在'train $ Docs < - factor（rownames（m），標籤=名稱（文檔））'（特別是標籤部分），如果你有一個大的語料庫和一個單獨的'類'變量，說明文檔屬於哪個類（例如類a，b，c）。我嘗試過'labels = class'，但它說'重複的因素水平已被棄用' – vdvaxel

獨特的類沒有重複。 – lukeA

在R中使用tm和rpart：文本數據的決策樹？

回答

相關問題