所以我一直在尋找到這對相當多,到目前爲止,我正在一個字符串,並執行以下操作:刪除特殊字符,解碼和編碼後
title = title.decode('windows-1252')
title = title.encode('utf-8','replace')
我的字符串如下,儘管可以有其他字符不會被刪除。
Bus • Lorry • IT & Construction
標點刪除:
title = title.translate(string.punctuation)
這似乎成爲(後標點刪除):
Bus • Lorry • IT Construction
雖然現在我得到,我分割字符串的問題,並嘗試加入吧重新走到一起。我把它拆分:
['Bus', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'Lorry', '\xc3\xa2\xe2\x82\xac\xc2\xa2', 'IT', 'Construction']
通過: 字= text.split(」「)
的嘗試重返一旦我了一些每個單詞詞根:
text = ' '.join([stemmer.stem(word) for word in words])
而且那麼,在這一點上,我碰到一個問題:
「ASCII」編解碼器不能在位置0解碼字節0xc3:有序不在範圍內(128)
但我很困惑,從閱讀的網站,我需要進行編碼和解碼,我覺得自己的已經做了....
您應該在'unicode'中處理文本,之後再輸出,再次在'utf8'中編碼。你可以試試嗎? –
另外請注意,你實際上並沒有_removing標點符號,你只是在utf8中重新編碼它。 –
我正在刪除它:title = title.translate(string.punctuation)我只是沒有把那部分放在 – redrubia