我找到了大多數在線英文單詞列表,但換行符是unix-style(以Unicode編碼:UTF-8)。我發現它在這個網站上:http://dreamsteep.com/projects/the-english-open-word-list.html如何將LF轉換爲CRLF?
如何將換行符轉換爲CRLF,以便我可以遍歷它們?我將使用它們的程序遍歷文件中的每一行,因此這些單詞必須是每行一行。
這是文件的一部分:bitbackbitebackbiterbackbitersbackbitesbackbitingbackbittenbackboard
它應該是:
bit
backbite
backbiter
backbiters
backbites
backbiting
backbitten
backboard
如何將我的文件轉換爲這種類型的?注意:這是26個文件(每個字母一個),總共有80,000個字左右(所以程序應該非常快)。
我不知道從哪裏開始,因爲我從未使用過unicode。提前致謝!
在我的代碼使用rU
作爲參數(如建議),與此:
with open(my_file_name, 'rU') as my_file:
for line in my_file:
new_words.append(str(line))
my_file.close()
我得到這個錯誤:
Traceback (most recent call last):
File "<pyshell#5>", line 1, in <module>
addWords('B Words')
File "D:\my_stuff\Google Drive\documents\SCHOOL\Programming\Python\Programming Class\hangman.py", line 138, in addWords
for line in my_file:
File "C:\Python3.3\lib\encodings\cp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 7488: character maps to <undefined>
誰能幫助我?
你可能覺得這http://stackoverflow.com/questions/3891076/how-to-convert-windows-end-of-line-in-unix-end-of-line-cr-lf-to-如果有幫助 – dmi3y
難道你不能讓你的程序能夠處理這兩種類型的行結束嗎? –
@JamesMcLaughlin我已經有文字的列表的文件。另外,我從來沒有用過的Unicode(如說明),所以我不知道如何處理這些類型的結局。 –