2017-08-08 24 views
1

我正在查看各種語義相似度方法,如word2vec,字移動距離(WMD)和fastText。就語義相似性而言,fastText並不比Word2Vec好。 WMD和Word2Vec具有幾乎相似的結果。是否有語義相似性方法在語義準確性方面優於word2vec方法?

我想知道是否有一種替代方法在Word2Vec模型中的語義準確性超過了?

我的使用情況: 現象單詞的嵌入了兩句,然後用餘弦相似性找到它們的相似性。

+0

跑贏word2vec什麼任務? – mbatchkarov

+0

@mbatchkarov語義準確性。更新了問題。 – utengr

回答

2

是否有任何技術「優於」另一種技術將高度依賴於您的培訓數據,您選擇的特定元參數選項以及您確切的結束任務。 (即使「語義相似性」可能有很多替代方面,取決於應用程序。)

沒有一種方法可以從word2vec單詞向量到句子/段落向量。你可以添加原始矢量。您可以對單位歸一化向量進行平均。你可以根據其他措詞重要性來進行其他類型的加權平均。所以你的隱含基準不清楚。

基本上,您必須嘗試各種方法和參數,以便您的數據和目標與您的自定義評估。

字先行者的距離減少每個文本到一個單一的載體,和兩個文本之間的配對計算可能很昂貴,但它已經報道了一些語義相似的任務非常不錯的表現。

FastText本質上是word2vec的一些額外的增強功能和新模式。關閉extras的某些模式與word2vec完全相同,因此在某些wordvecs-to-textvecs方案中使用FastText單詞向量應該在相同方案中使用word2vec單詞向量近似近似。有些模式可能有助於詞的矢量質量達到某種目的,但是在wordvecs-to-textvecs方案中使單詞矢量的效率降低。有些模式可能會使得單詞矢量對於總和/平均合成方案更好 - 您應該特別注意'分類器'模式,這種模式在分類任務時訓練單詞vecs是很好的,當平均時。 (就您的數據而言,您可能有任何語義標籤,這可能會使單詞vecs對於語義相似性任務而言更加可組合。)

您可能還想查看'Paragraph Vectors'技術(可在gensim as Doc2Vec)或其他研究結果,以簡寫名稱「fastSent」或「sent2vec」開頭。

+0

我的意思是,這裏的語義相似度與語義相似度,就像Word Mover的距離想要達到的一樣。例如,美國總統和美國總統應該被認爲是相似的,儘管這是兩個不同的詞。 – utengr

+0

我也以鬆散的方式使用「跑贏大盤」。我想知道,如果人們對任何類型的相似任務都比其他模型有更好的結果。至少,這會給我一個嘗試具體事情的起點。 – utengr

相關問題