我想製作程序,它將分割txt文件中的每個單詞,以及單詞的返回列表,但不重複任何單詞。我將我的PDF書轉換爲txt,然後使用我的程序,但它完全失敗。我不知道,我做錯了什麼。這是我的代碼:Python - 在txt中分割單詞
def split(file):
lines = open(file, 'rU').readlines()
words = []
word = ''
for line in lines:
for letter in line:
if letter not in [' ', '\n', '.', ',']:
word += letter
elif letter in [' ', '\n', '.', ',']:
if word not in words:
words.append(word)
word = ''
words.sort()
return words
for word in split('AKiss.txt'):
print(word, end=' ')
我還附加了AKiss.txt和原始PDF以防萬一它可能有用。
PDF - http://1drv.ms/b/s!AtZrd19H_8oyabhAx-NZvIQD_Ug
TXT - http://1drv.ms/t/s!AtZrd19H_8oyapvBvAo27rNJSwQ
*沒有重複* ...爲什麼不使用set而不是列表? – Mangohero1
你能描述它是如何失敗的嗎? – glibdud
@glibdud它在理論上返回其他詞,但有相同的詞,但沒有什麼區別,真正奇怪的是 - 它們不存在於文件中:「Do」不要「不要扭轉」不要扭轉「多蘿西」多蘿西「 –