蟒蛇刪除開頭寫着 '\ü......'

如何刪除以 '\ü......'蟒蛇刪除開頭寫着 'ü......'

count_all = Counter() 
for sentence in tweets[:100]: 
    cleaned_terms = [term for term in preprocess(sentence.lower()) if term not in stop] 
    count_all.update(cleaned_terms) 

print count_all.most_common(5)

輸出開始的所有條款：

#[(u'#halloween', 100), (u'\ud83d', 52), (u'\u2026', 28), (u'\ud83c', 24), (u'halloween', 14)]

來源

2015-11-02 jxn

您能給出一個可能的輸入和預期輸出的清晰例子嗎？我在這裏有點失落。你有「清理的代碼」。這個代碼不是做你想做的嗎？如果是這樣，怎麼樣（不？） – Floris

這些字符串不是以''\ u''開始的。你看到的是一個對象的可打印表示，由'repr'函數給出。 – roeland

如何以可讀格式打印它？ – jxn

爲\ uXXXX對應於一個Unicode字符（例如，2026 =單個字符省略號，...）。找到非ASCII的最簡單的方法是隻檢查ord(term[0]) > 255是否在你的理解中，但是這實際上是你想要做什麼可能取決於你的特定用例。

來源

2015-11-02 01:51:49

你會如何在我的代碼中寫入？如果我實際理解並將輸出看作英語/可讀術語 – jxn

'cleaned_terms = [term for preprocess（sentence.lower（））if term not in stop and ord（term [0]），我想保留該術語<256]' –

謝謝，它看起來更好。完成上述操作後，我仍然可以看到一些看起來像'u'\ xe9''的術語。在這些情況下，我該如何翻譯這些條款？ – jxn

蟒蛇刪除開頭寫着 '\ü......'

回答

相關問題