1
是否有一種方法可以使用Python過濾僅處理英文文本的已處理數據集?也許一些NLTK功能或類似的東西。的數據是從Twitter萃取,和它的格式如下:使用Python只對英文文本進行Twitter數據集篩選
<tweetid>, <username>, <userid> &8888 <tweet text>
流過濾是不恰當的,因爲我有初始數據僅在上述格式顯示。 任何幫助將不勝感激,謝謝。
是否有一種方法可以使用Python過濾僅處理英文文本的已處理數據集?也許一些NLTK功能或類似的東西。的數據是從Twitter萃取,和它的格式如下:使用Python只對英文文本進行Twitter數據集篩選
<tweetid>, <username>, <userid> &8888 <tweet text>
流過濾是不恰當的,因爲我有初始數據僅在上述格式顯示。 任何幫助將不勝感激,謝謝。
您需要的是語言檢測模塊。
from textblob import TextBlob
textBlob('your tweet').detect_language()
謝謝,這非常有幫助。 – mjackie