2017-05-04 47 views
0

我剛剛熟悉R的tm包。如果文件夾中有單獨的.txt文件,我知道如何將這些文件轉換爲R中的一種語料庫文件 。但是在我的具體情況中,我在一個文件中包含所有文本數據。該文件中的每個句子代表一個文檔,並具有前面的 短語ID和句子ID。 .tsv文件如下所示:如何將包含文本數據的文件轉換爲R tm的語料庫格式

PhraseId SentenceId 156061 8545間歇性令人愉悅但主要是常規性的努力。 156062 8545間歇性的令人愉悅的,但大多是日常的努力156063 8545一156064 8545間歇性令人滿意,而且大多是日常的努力.....

我怎樣才能變換的文本數據這樣的文件到tm的語料格式?

回答

0

Try:

library(tm) 

txt<-("PhraseId SentenceId 156061 8545 An intermittently pleasing but mostly routine effort . 156062 8545 An intermittently pleasing but mostly routine effort 156063 8545 An 156064 8545 intermittently pleasing but mostly routine effort ") 

text.corpus<-Corpus(VectorSource(txt)) 
相關問題