我想用文字分割句子。在python中分割句子
words = content.lower().split()
這給了我的話像
'evening,', 'and', 'there', 'was', 'morning--the', 'first', 'day.'
列表,並使用此代碼:
def clean_up_list(word_list):
clean_word_list = []
for word in word_list:
symbols = "[email protected]#$%^&*()_+`{}|\"?><`-=\][';/.,']"
for i in range(0, len(symbols)):
word = word.replace(symbols[i], "")
if len(word) > 0:
clean_word_list.append(word)
我得到的是這樣的:
'evening', 'and', 'there', 'was', 'morningthe', 'first', 'day'
,如果你看到單詞「morningthe」在列表中使用詞之間有「 - 」。現在,有什麼辦法可以將它們分成兩個單詞,如"morning","the"
?
你需要分割上的所有分隔符,而不僅僅是空白。這在其他StackOverflow問題中已有介紹。 – Prune
http://stackoverflow.com/q/13209288/3865495 – CoconutBandit
可能的重複您需要使用'strip()'方法刪除行末尾的不需要的符號。即''x - '。strip(',:')' - >''x'',但是'x-y'.strip(',: - ')' - >''x-y''。但是,如果你想使用真正的文本,你需要更復雜的方法......也許NTLK應該是一個好的開始? – myaut