過濾從'\'開始的詞

-1

我正在從twitter獲取推文，我想做詞頻但避免表情符號和奇怪的字符。我已經看到這個角色具有以下形式：u'*'，所以他們總是以\開頭，但是當我試圖將這個角色作爲過濾器時，它不允許我因爲\是一個特殊字符。你知道我怎樣才能過濾這種單詞？我裝上10個最常用的詞，我有：過濾從''開始的詞

[(u'#ElClasico', 3311), 
(u'RT', 2839), 
(u'\ud83d', 1425), 
(u'#Messi', 1369), 
(u'\u2026', 1092), 
(u'Messi', 975), 
(u'Barcelona', 964), 
(u'\u2705', 948), 
(u'Most', 944), 
(u'500', 903)]

我想刪除U '\ ud83d' U '\ 2026' 和U '\ 2705'

來源

2017-04-26 Hector Esteban Cabezos

U + D83D是一個替代項，表明您已經損壞了您的輸入。 U + 2026是一個標點符號。你應該非常小心地過濾你的輸入 - 例如，你會對重音字母做些什麼？ –

那麼你推薦什麼來擦除不是單詞的特殊字符呢？ –

如果你想過濾出非拉丁字符，那麼你就可以利用圖書館regex：

from regex import VERSION1, UNICODE, compile 

# remove non-Latin characters. 
compile(ur'\p{^Latin}+', VERSION1 | UNICODE).sub('', YOUR_INPUT) 

# remove non-Latin/non-space/non-punctuation characters. 
compile(ur'[^\p{Latin}\p{Zs}\p{Po}]+', VERSION1 | UNICODE).sub('', YOUR_INPUT)

CF卡：

Unicode Character Categories

來源

2017-04-26 16:03:50 kay

非常感謝，但問題是，使用第一次編譯我現在得到這個輸出：英語中最常用的單詞是：[（u''，10041），（u'ElClasico'，3311），（u'RT （U'Messi'，2444），（u'Barcelona'，1011），（u'Most'，944），（u'Lionel'，872），（u'goals'，834），（u'goal'，767），（u'th'，633）]所以我想抹掉表情符號，不僅僅是改變他們的''' –

過濾從'\'開始的詞

回答

相關問題