Q

找到'現代'nltk單詞語料庫

2017-06-14 209 views 0 likes

0

我正在建立一個文本分類器，將文本分類爲主題。找到'現代'nltk單詞語料庫

作爲清潔數據的一部分，我在程序的第一階段刪除了所有非英語單詞。爲此，我使用nltk.corpus.words.words（）語料庫。這個語料庫的問題在於，它刪除了「現代」英語單詞，如Facebook，Instagram等。是否有人知道另一個更現代的語料庫，我可以用它來替代或結合現在的語料庫？

我更喜歡nltk語料庫，但我願意接受其他建議。

在此先感謝

2017-06-14 user4550050

+0

可能比標記的「重複」更相關：https://stackoverflow.com/questions/3788870/how-to-check-if-a-word-is-an-english-word-with-python – alexis

A

回答

0

我會用維基百科，但它消耗來標記它的整體相當的時間。幸運的是，它已經爲您完成了。你可以使用一個經過1000百萬字維基百科訓練的Word2Vec model，並檢查單詞是否在模型中。

我還發現這project其中克里斯製作的模型的300萬字詞彙的文本文件。

請注意，該項目的單詞列表中不包含一些停用詞，因此，從nltk和這個詞中找到列表的聯合是個好主意。

2017-06-14 16:45:59 aberger

1

重新思考你的方法。任何英文文本的集合都會有一個你以前沒有見過的詞的「長尾」。不管你收集的字典有多大，你都會刪除非「非英語」的字詞。爲了什麼目的？留下他們，他們不會破壞你的分類。

如果您的目標是刪除非英文文本，請使用統計方法在句子或段落級別進行刪除。 ngram模型。他們工作得很好，所需資源極少。

2017-06-14 19:48:48 alexis

相關問題