我正在爲NLP任務構建TensorFlow模型,並且我正在使用預訓練手套300d單詞矢量/嵌入數據集。初始化詞彙表(OOV)令牌
很明顯,某些標記不能被解析爲嵌入,因爲沒有包含在單詞向量嵌入模型的訓練數據集中,例如,罕見的名字。
我可以用0的向量替換那些標記,但不是將這些信息放在地板上,我更願意以某種方式對它進行編碼,並將其包含到我的訓練數據中。假設我有'raijin'這個單詞,它不能被解析爲嵌入向量,那麼與Glove嵌入數據集一致的最佳編碼方式是什麼?將其轉換爲300d矢量的最佳方法是什麼?
謝謝。