我是學習Word2Vec的初學者,剛剛開始在互聯網上對word2vec進行一些研究。我經歷了幾乎Quora和StackOverflow中的所有問題,但沒有從以前的問題中得到任何答案。所以我的問題是 - 1.是否可以將word2vec應用於剽竊檢測? 2.如果沒有。 1是可能的,那麼Word2Vec在基於文本的剽竊檢測方面會比WordNet還是像GloVe,fastText等其他文字嵌入更有效?提前致謝。在基於文本的剽竊檢測中,Word2Vec會比WordNet或任何其他像GloVe,fastText等文字嵌入更高效嗎?
1
A
回答
2
是的,像word2vec這樣的詞義含義的這些「密集嵌入」模型在剽竊檢測中可能是有用的。 (它們也可能有助於從簡單的檢測器中混淆剽竊,因爲它們可以幫助對現有文本進行自動變換,以改變單詞,同時保持含義類似。)
只有通過在特定系統內進行測試和定量評估能夠肯定你知道它可以工作得多好,或者某個特定的嵌入比WordNet更好還是更差。
在word2vec,fastttext和GloVE中,結果可能會非常相似 - 它們都使用大致相同的信息(滑動上下文窗口中的單詞共現)來製作最大預測性單詞向量 - 因此它們表現得非常好類似的訓練數據也是如此。
任何差異都很微妙 - 非GLoVe選項對於較大的詞彙表可能會更好;在某些模式下,fasttext本質上是word2vec,但爲建模子字詞添加了新的選項(這可以幫助爲將來的詞典外詞彙創建好於隨機的向量)或優化矢量以用於分類問題。
但是,如果訓練過程類似於您的任務的元優化,那麼可以使用大量訓練數據訓練的已知單詞向量在能力上會非常相似。
相關問題
- 1. 剽竊檢測與搜索API的數百萬文本項目
- 2. CSS剽竊檢查
- 3. 剽竊檢測機器下的算法
- 4. 天真的方法來檢測剽竊?
- 5. 在WordPress中剽竊htaccess文件
- 6. 剽竊探測器問題
- 7. 等於任何其他文本框的文本框
- 8. difflib可以用來製作剽竊檢測程序嗎?
- 9. Javascript測試的IE文本大小(EG「最大」)或任何其他輔助功能設置(高對比度等)
- 10. 如何開發剽竊探測器?
- 11. 插入文本基於其他細胞
- 12. MySQL比文件系統更高效嗎?
- 13. gensim word2vec - 用在線文字嵌入更新數組的尺寸
- 14. '==='比'!=='更高效嗎?
- 15. glMultMatrix/glLoadMatrix比glRotatef或glTranslatef更高效嗎?
- 16. 使用谷歌搜索引擎API創建剽竊檢測器
- 17. 甲骨文,基於其他字段中插入相關數字
- 18. Wopyfind for python - 剽竊軟件?
- 19. MySQL,這是更有效的長文本,文本或blob?提高插入效率
- 20. 更改文字,其中標題等於
- 21. 如何使用JavaScript基於其他文本框更新文本框的值?
- 22. JavaScript:基於在文本框中鍵入的值更改圖像
- 23. 像Dvorak,Colemak等其他鍵盤佈局比QWERTY更好嗎?
- 24. Word2Vec字的嵌入與GPU
- 25. MySQL比文本大小更長,短於中等文本大小
- 26. 如何簽署文本文件或任何其他xml
- 27. 關於SynchronizationContext,ExecutionContext或任何其他上下文的任何好的文章?
- 28. 等效於其他框架中的webcontrols?
- 29. 更新基於其他事件的文本觀察者
- 30. PHP不等於或其他不等於
這樣的問題往往沒有一個答案。如果你有一個任務和一個數據集,你應用各種方法,選擇最好的方法,試着去了解其他方法的缺點。這似乎也是你問這個問題,因爲你沒有全面瞭解這些方法如何工作,以及抄襲檢測任務是什麼。所以我覺得,不要在SO或Quora上尋找答案,而是閱讀一些基本的ML/NLP書籍或遵循在線課程 - 它們會逐漸引入主題,這樣可能會更容易學習。 –