我已經刪除所有代碼並將所有文件添加到一個大文本文件中(3,89GB).. 但我仍然不能刪除所有重複的單詞,因爲我無法將整個文件加載到['list']我想刪除dict.txt中的所有重複單詞。我此刻的代碼加載10個000000字EN列表,在列表中刪除重複....刪除多文本wordlist中的重複項python
count = 0
strings = []
dict_o = open ('./dict/dict.txt','r')
for line in dict_o:
strings.append(line)
count+=1
if count > 10000000:
strings_s =set(strings)
strings_so = sorted(strings_s)
out = open('./dict/dict1.txt','a').writelines(strings_so)
count = 0
strings= []
短的,有代表性的例子是有很大的幫助 – inspectorG4dget 2014-11-06 20:28:35
什麼是具有多重目的文件?將單詞放入簡單的數據庫(例如SQLite)似乎更有意義。 – bernie 2014-11-06 20:34:06
嘿嘿..如果我沒有誤解你的想法是隻有一個大文本文件....測試打開並閱讀一個文件大小爲4GB的文件會給MemoryError ... – nkf4 2014-11-07 00:05:49