從網上無監督抓取文本訓練word2vec是否是一個好主意？

我想知道，一般來說，如果使用從Web自動爬網的文本來訓練word2vec是個好主意。在Web上可以找到的例子中，算法總是用高質量的文本（正確的句子，正確的標點符號，沒有奇怪的單詞等）進行訓練。從網上無監督抓取文本訓練word2vec是否是一個好主意？

但是，當自動抓取Web時，原始文本的質量不會太高。另一方面，培訓文本的編輯可以自動完成，我們不需要花費時間。

來源

2016-01-22 Jorgemar

我不會那樣做。數據的質量始終是一個重要的事實。我會先預處理/過濾數據。另一方面，您可以提取所有數據，並將不清楚的單詞留待以後處理，或者將其作爲無效數據。你可以啓動一個批處理來清理數據，所以我不認爲自動化是一個問題。您甚至可以從抓取工具實時（流式）獲取/過濾數據，然後在數據過濾後立即開始訓練word2vec。對不起，如果我的答案太模糊。也許如果你告訴我們你是如何接近它，或者我們可以看到一些不合格的註冊，答案可能會更準確。

也許這個鏈接可以給你一些線索：http://chapeau.freevariable.com/2015/12/using-word2vec-on-log-messages.html

來源

2016-01-22 10:58:00 ERed

你知道word2vec如何處理換行符。例如，博客中的文章是每行一篇文章，而不是換行符的「原樣」？ –

爲了配合別人的答案，我會說，這真的取決於你想與他們的創作後的單詞矢量（word2Vec的輸出）做什麼：如果您的意圖是使用它們對質量不好的文本（例如論壇內容或推文，口語，abreviations，非正確短語等）進行自然語言處理（集羣，情感分析...）可能是相關的。另一方面，如果您的模型稍後將被用於處理高質量的文本，那麼這可能是一個壞主意。

Word2Vec算法趨向於隨着（好）文本數量的增加而產生更好的準確性。我目前的做法是使用維基百科轉儲，並通過爬行檢索的內容對其進行補充。

作爲獲得更高質量文本的第一種方式，我的抓取工具使用優質網站（新聞網站，政府和行政部門，大學等）的白名單，因此將僅從本網站檢索內容。

我仍然保留一些不好的文字，至少有一些表達的口頭語言，對話，俚語......取決於使用情況，它可能被證明是有用的。

希望有所幫助。

來源

2016-01-30 13:18:39 blackbox

從網上無監督抓取文本訓練word2vec是否是一個好主意？

回答

相關問題