從公開可用的詞嵌入中提取更有意義的詞

我有兩個公開可用的詞嵌入，如Glove和Google Word2vec。但是，在他們的詞彙中，拼寫錯誤的詞或垃圾詞太多（例如，## AA ##，adirty等）。爲了避免這個詞，我想提取頻繁的單詞（例如，前50000個單詞），因爲我認爲相對高頻率的單詞具有正常形式。從公開可用的詞嵌入中提取更有意義的詞

所以，我不知道是否有一種方法來找到上述兩個預訓練詞嵌入中的詞頻。如果沒有，我想知道是否有一些技術排除這個詞。

來源

2017-08-11 yc Kim

GoogleNews矢量集不包含頻率信息，但似乎是從最頻繁到最不頻繁的排序。因此，如果您將加載它的代碼更改爲僅加載前N個單詞，則應該得到N個最頻繁的單詞。

（用於培訓或工作與文字載體Python的gensim庫包括本作在load_word2vec_format()功能limit選項。）

手套可以遵循相同的約定 - 一看在訂單的詞該文件應該給出一個好主意。

來源

2017-08-11 19:21:15 gojomo

從公開可用的詞嵌入中提取更有意義的詞

回答

相關問題