2016-07-20 57 views
1

是否有一種方法可以使用Python過濾僅處理英文文本的已處理數據集?也許一些NLTK功能或類似的東西。的數據是從Twitter萃取,和它的格式如下:使用Python只對英文文本進行Twitter數據集篩選

<tweetid>, <username>, <userid> &8888 <tweet text> 

流過濾是不恰當的,因爲我有初始數據僅在上述格式顯示。 任何幫助將不勝感激,謝謝。

回答

1

您需要的是語言檢測模塊。

from textblob import TextBlob  
textBlob('your tweet').detect_language() 
+0

謝謝,這非常有幫助。 – mjackie