我在使用Python讀取文件時遇到問題。無法讀取Python中的完整文本文件
我在Python中讀取的文件大小爲90 Mb。單詞打開時,表明單詞總數約爲1400萬。但是當我用Python讀取文件時,它給我的文件長度約爲900萬字(8,915,710字)。
當我檢查通過python命令來查看文件中的最後100個字
print "The length of the Corpus is ", len(tokens), tokens[-100:]
我只能從繞過原始文件的中間字。
我使用的是64位Windows操作系統和32位版本的Python。
PC規格:酷睿i7,1.8Gz,6GB RAM
我想明白爲什麼Python的拒絕讀取超出8915710個字。
感謝
CODE:
f = open('testtext.txt')
raw = f.read()
corp = lowercase(raw)
tokens = nltk.word_tokenize(corp)
print "The number of words is ", len(tokens), tokens[-100:]
print "corp ", len(corp)
print "raw ", len(raw)
我得到以下答案:
>> The number of words is 8915710
>> corp 53322476
>> raw 53322476
這將是幾乎不可能沒有看到[實際代碼]回答(http://sscce.org/) – phihag 2013-03-07 22:38:25
有,爲什麼你需要一些實際的原因一次將文件讀入內存?爲什麼不只是逐行掃描它們,例如'for line in f:do_smth(line)' – msvalkon 2013-03-07 22:39:39
你能打印出值'len(raw)'和'len(corp)'嗎? – 2013-03-07 22:52:43