2015-11-02 65 views
1

如何刪除以 '\ü......'蟒蛇刪除開頭寫着 'ü......'

count_all = Counter() 
for sentence in tweets[:100]: 
    cleaned_terms = [term for term in preprocess(sentence.lower()) if term not in stop] 
    count_all.update(cleaned_terms) 

print count_all.most_common(5) 

輸出開始的所有條款:

#[(u'#halloween', 100), (u'\ud83d', 52), (u'\u2026', 28), (u'\ud83c', 24), (u'halloween', 14)] 
+0

您能給出一個可能的輸入和預期輸出的清晰例子嗎?我在這裏有點失落。你有「清理的代碼」。這個代碼不是做你想做的嗎?如果是這樣,怎麼樣(不?) – Floris

+0

這些字符串不是以''\ u''開始的。你看到的是一個對象的可打印表示,由'repr'函數給出。 – roeland

+0

如何以可讀格式打印它? – jxn

回答

1

爲\ uXXXX對應於一個Unicode字符(例如,2026 =單個字符省略號,...)。找到非ASCII的最簡單的方法是隻檢查ord(term[0]) > 255是否在你的理解中,但是這實際上是你想要做什麼可能取決於你的特定用例。

+0

你會如何在我的代碼中寫入?如果我實際理解並將輸出看作英語/可讀術語 – jxn

+0

'cleaned_terms = [term for preprocess(sentence.lower())if term not in stop and ord(term [0]),我想保留該術語<256]' –

+0

謝謝,它看起來更好。完成上述操作後,我仍然可以看到一些看起來像'u'\ xe9''的術語。在這些情況下,我該如何翻譯這些條款? – jxn