2017-06-27 47 views
1

我是學習Word2Vec的初學者,剛剛開始在互聯網上對word2vec進行一些研究。我經歷了幾乎Quora和StackOverflow中的所有問題,但沒有從以前的問題中得到任何答案。所以我的問題是 - 1.是否可以將word2vec應用於剽竊檢測? 2.如果沒有。 1是可能的,那麼Word2Vec在基於文本的剽竊檢測方面會比WordNet還是像GloVe,fastText等其他文字嵌入更有效?提前致謝。在基於文本的剽竊檢測中,Word2Vec會比WordNet或任何其他像GloVe,fastText等文字嵌入更高效嗎?

+1

這樣的問題往往沒有一個答案。如果你有一個任務和一個數據集,你應用各種方法,選擇最好的方法,試着去了解其他方法的缺點。這似乎也是你問這個問題,因爲你沒有全面瞭解這些方法如何工作,以及抄襲檢測任務是什麼。所以我覺得,不要在SO或Quora上尋找答案,而是閱讀一些基本的ML/NLP書籍或遵循在線課程 - 它們會逐漸引入主題,這樣可能會更容易學習。 –

回答

2

是的,像word2vec這樣的詞義含義的這些「密集嵌入」模型在剽竊檢測中可能是有用的。 (它們也可能有助於從簡單的檢測器中混淆剽竊,因爲它們可以幫助對現有文本進行自動變換,以改變單詞,同時保持含義類似。)

只有通過在特定系統內進行測試和定量評估能夠肯定你知道它可以工作得多好,或者某個特定的嵌入比WordNet更好還是更差。

在word2vec,fastttext和GloVE中,結果可能會非常相似 - 它們都使用大致相同的信息(滑動上下文窗口中的單詞共現)來製作最大預測性單詞向量 - 因此它們表現得非常好類似的訓練數據也是如此。

任何差異都很微妙 - 非GLoVe選項對於較大的詞彙表可能會更好;在某些模式下,fasttext本質上是word2vec,但爲建模子字詞添加了新的選項(這可以幫助爲將來的詞典外詞彙創建好於隨機的向量)或優化矢量以用於分類問題。

但是,如果訓練過程類似於您的任務的元優化,那麼可以使用大量訓練數據訓練的已知單詞向量在能力上會非常相似。

相關問題