無法將語料庫轉換爲R中的數據框

我已經查看了此處發佈的其他類似問題（如this），但問題仍然存在。無法將語料庫轉換爲R中的數據框

我有一個文本數據的數據框，我需要幹。所以我將它轉換成一個語料庫，然後完成它，然後完成詞幹的單詞，然後嘗試獲取文本的數據框作爲輸出。

myCorpus <- Corpus(VectorSource(textDf$text)) 
myCorpus <- tm_map(myCorpus, removeWords, stopwords('english')) 
myCorpus <- tm_map(myCorpus, content_transformer(tolower)) 
myCorpus <- tm_map(myCorpus, removePunctuation) 
dictCorpus <- myCorpus 
myCorpus <- tm_map(myCorpus, stemDocument) 
myCorpus <- tm_map(myCorpus, stemCompletion, dictionary=dictCorpus)

現在我試圖從這個語料庫中得到一個數據框，所以我嘗試了下面這些命令。

dataframe<-data.frame(text=unlist(sapply(myCorpus, '[', "content")), stringsAsFactors=F)

和

dataframe<-data.frame(text=unlist(sapply(myCorpus, [)), stringsAsFactors=F)

也

dataframe <- 
    data.frame(id=sapply(corpus, meta, "id"), 
       text=unlist(lapply(sapply(corpus, '[', "content"),paste,collapse="\n")), 
       stringsAsFactors=FALSE)

從this鏈接

他們都產生以下錯誤：

Error in UseMethod("meta", x) : 
    no applicable method for 'meta' applied to an object of class "character"

任何幫助將不勝感激。

來源

2015-10-18 wrahool

你能舉一些例子說明數據？ – bramtayl

'textDf $ text'是一個充滿推文的字符向量。 – wrahool

這應該做到這一點：

data.frame(text = sapply(myCorpus, as.character), stringsAsFactors = FALSE)

編輯與工作液，使用crude爲例

這裏的問題是，你可以不適用stemCompletion的轉變。

getTransformations() 
## [1] "removeNumbers"  "removePunctuation" "removeWords"  "stemDocument"  "stripWhitespace"

不包括stemCompletion，這需要梗令牌作爲輸入的向量。

所以這應該做到這一點：首先提取轉換後的文本並標記它們，然後完成詞幹，然後粘貼回去。在這裏我已經說明了使用內置的crude語料庫的解決方案。

data(crude) 
myCorpus <- crude 
myCorpus <- tm_map(myCorpus, removeWords, stopwords('english')) 
myCorpus <- tm_map(myCorpus, content_transformer(tolower)) 
myCorpus <- tm_map(myCorpus, removePunctuation) 
dictCorpus <- myCorpus 
myCorpus <- tm_map(myCorpus, stemDocument) 
# tokenize the corpus 
myCorpusTokenized <- lapply(myCorpus, scan_tokenizer) 
# stem complete each token vector 
myTokensStemCompleted <- lapply(myCorpusTokenized, stemCompletion, dictCorpus) 
# concatenate tokens by document, create data frame 
myDf <- data.frame(text = sapply(myTokensStemCompleted, paste, collapse = " "), stringsAsFactors = FALSE)

來源

2015-10-18 02:29:22

謝謝！這工作。 – wrahool

我已經重做了一些早期的代碼與magrittr，只是因爲。

library(dplyr) 
library(tm) 


dictCorpus = 
    c("I love my cat", "Cullen bae is bae", "4ever alone :(") %>% 
    VectorSource %>% 
    Corpus %>% 
    tm_map(removeWords, stopwords('english')) %>% 
    tm_map(content_transformer(tolower)) %>% 
    tm_map(removePunctuation) 

myCorpus = 
    dictCorpus %>% 
    tm_map(stemDocument) %>% 
    tm_map(stemCompletion, dictionary=dictCorpus) 

data = 
    data_frame(object = 
       myCorpus %>% 
       `class<-`("list") %>% 
       use_series(content)) %>% 
    rowwise %>% 
    mutate(content = 
      object %>% 
      names %>% 
      extract(1))

來源

2015-10-18 01:59:16 bramtayl

您必須將corpus轉換爲plaintextdocument。

myCorpus <- tm_map(myCorpus, PlainTextDocument)

來源

2016-11-03 16:41:59 shank

另一種選擇：

df <- as.data.frame(as.matrix(myCorpus))

來源

2017-04-24 12:34:53 rajesh

無法將語料庫轉換爲R中的數據框

回答

相關問題