quanteda不從corpusSource對象創建語料庫

我正在使用帶有4Gb RAM的32位操作系統的Windows 7，其中只有3Gb可由於32位限制而被訪問。我關閉了所有其他東西，可以看到在啓動之前我有大約1Gb的緩存和1Gb可用空間。「免費」的內存有所不同，但有時是0.quanteda不從corpusSource對象創建語料庫

使用量子 - 我正在閱讀twitter.txt文件使用textfile（）命令，它成功地創建了一個157Mb的corpusSource對象。當我採用下一步使用corpus（）命令將其轉換爲「語料庫」時，R會通過它進行轟擊，並創建一個非常小的空文件，其中包含四個元素，全部包含0代碼和輸出如下：代碼和輸出如下：

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile) 
corp <- corpus(twitterprecorp) 
summary(corp) 

Corpus consisting of 1 document. 

       Text Types Tokens Sentences 
en_US.twitter.txt  0  0   0 

Source: C:/R_Data/Capstone/* on x86 by xxxxx 
Created: Thu Aug 18 06:32:01 2016 
Notes: 

Warning message: 
In nsentence.character(object, ...) : 
    nsentence() does not correctly count sentences in all lower-cased text

...。對這種情況發生的原因有什麼見解？

來源

2016-08-18 B. McCracken

您使用'twitterprecorp'而不是'precorp' – HubertL

@HubertL指向一個顯而易見的問題，您需要檢查。還有一個單一的文件，你的意圖是什麼？或者'en_US.twitter.txt'包含多個Tweets形式的多個「文檔」？ –

謝謝你們。我更新了代碼，如下所示，以簡化代碼，我更新了代碼，結果如下： –

textfile()

給你的字符向量，整個文件的單個元素。你可能想使用

readlines()

爲：

precorp <- readlines(twitterfile)

這會給你的文件中的每一行元素的字符向量。在創建語料庫時，語料庫（）會將該向量的每個元素作爲文檔對待。

來源

2016-10-19 02:29:08

quanteda不從corpusSource對象創建語料庫

回答

相關問題