2017-08-11 20 views
1

我有兩個公開可用的詞嵌入,如Glove和Google Word2vec。 但是,在他們的詞彙中,拼寫錯誤的詞或垃圾詞太多(例如,## AA ##,adirty等)。爲了避免這個詞,我想提取頻繁的單詞(例如,前50000個單詞),因爲我認爲相對高頻率的單詞具有正常形式。從公開可用的詞嵌入中提取更有意義的詞

所以,我不知道是否有一種方法來找到上述兩個預訓練詞嵌入中的詞頻。如果沒有,我想知道是否有一些技術排除這個詞。

回答

1

GoogleNews矢量集不包含頻率信息,但似乎是從最頻繁到最不頻繁的排序。因此,如果您將加載它的代碼更改爲僅加載前N個單詞,則應該得到N個最頻繁的單詞。

(用於培訓或工作與文字載體Python的gensim庫包括本作在load_word2vec_format()功能limit選項。)

手套可以遵循相同的約定 - 一看在訂單的詞該文件應該給出一個好主意。