0
我正在使用帶有4Gb RAM的32位操作系統的Windows 7,其中只有3Gb可由於32位限制而被訪問。我關閉了所有其他東西,可以看到在啓動之前我有大約1Gb的緩存和1Gb可用空間。 「免費」的內存有所不同,但有時是0.quanteda不從corpusSource對象創建語料庫
使用量子 - 我正在閱讀twitter.txt文件使用textfile()命令,它成功地創建了一個157Mb的corpusSource對象。當我採用下一步使用corpus()命令將其轉換爲「語料庫」時,R會通過它進行轟擊,並創建一個非常小的空文件,其中包含四個元素,全部包含0代碼和輸出如下:代碼和輸出如下:
twitterfile <- "./final/en_US/en_US.twitter.txt"
precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)
Corpus consisting of 1 document.
Text Types Tokens Sentences
en_US.twitter.txt 0 0 0
Source: C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:
Warning message:
In nsentence.character(object, ...) :
nsentence() does not correctly count sentences in all lower-cased text
...。對這種情況發生的原因有什麼見解?
您使用'twitterprecorp'而不是'precorp' – HubertL
@HubertL指向一個顯而易見的問題,您需要檢查。還有一個單一的文件,你的意圖是什麼?或者'en_US.twitter.txt'包含多個Tweets形式的多個「文檔」? –
謝謝你們。我更新了代碼,如下所示,以簡化代碼,我更新了代碼,結果如下: –