2017-06-14 116 views
0

我正在建立一個文本分類器,將文本分類爲主題。找到'現代'nltk單詞語料庫

作爲清潔數據的一部分,我在程序的第一階段刪除了所有非英語單詞。爲此,我使用nltk.corpus.words.words()語料庫。這個語料庫的問題在於,它刪除了「現代」英語單詞,如Facebook,Instagram等。是否有人知道另一個更現代的語料庫,我可以用它來替代或結合現在的語料庫?

我更喜歡nltk語料庫,但我願意接受其他建議。

在此先感謝

+0

可能比標記的「重複」更相關:https://stackoverflow.com/questions/3788870/how-to-check-if-a-word-is-an-english-word-with-python – alexis

回答

0

我會用維基百科,但它消耗來標記它的整體相當的時間。幸運的是,它已經爲您完成了。你可以使用一個經過1000百萬字維基百科訓練的Word2Vec model,並檢查單詞是否在模型中。

我還發現這project其中克里斯製作的模型的300萬字詞彙的文本文件。

請注意,該項目的單詞列表中不包含一些停用詞,因此,從nltk和這個詞中找到列表的聯合是個好主意。

1

重新思考你的方法。任何英文文本的集合都會有一個你以前沒有見過的詞的「長尾」。不管你收集的字典有多大,你都會刪除非「非英語」的字詞。爲了什麼目的?留下他們,他們不會破壞你的分類。

如果您的目標是刪除非英文文本,請使用統計方法在句子或段落級別進行刪除。 ngram模型。他們工作得很好,所需資源極少。

相關問題