2016-01-22 46 views
2

我想知道,一般來說,如果使用從Web自動爬網的文本來訓練word2vec是個好主意。在Web上可以找到的例子中,算法總是用高質量的文本(正確的句子,正確的標點符號,沒有奇怪的單詞等)進行訓練。從網上無監督抓取文本訓練word2vec是否是一個好主意?

但是,當自動抓取Web時,原始文本的質量不會太高。另一方面,培訓文本的編輯可以自動完成,我們不需要花費時間。

回答

2

我不會那樣做。數據的質量始終是一個重要的事實。 我會先預處理/過濾數據。另一方面,您可以提取所有數據,並將不清楚的單詞留待以後處理,或者將其作爲無效數據。你可以啓動一個批處理來清理數據,所以我不認爲自動化是一個問題。您甚至可以從抓取工具實時(流式)獲取/過濾數據,然後在數據過濾後立即開始訓練word2vec。 對不起,如果我的答案太模糊。也許如果你告訴我們你是如何接近它,或者我們可以看到一些不合格的註冊,答案可能會更準確。

也許這個鏈接可以給你一些線索:http://chapeau.freevariable.com/2015/12/using-word2vec-on-log-messages.html

+2

你知道word2vec如何處理換行符。例如,博客中的文章是每行一篇文章,而不是換行符的「原樣」? –

3

爲了配合別人的答案,我會說,這真的取決於你想與他們的創作後的單詞矢量(word2Vec的輸出)做什麼: 如果您的意圖是使用它們對質量不好的文本(例如論壇內容或推文,口語,abreviations,非正確短語等)進行自然語言處理(集羣,情感分析...)可能是相關的。另一方面,如果您的模型稍後將被用於處理高質量的文本,那麼這可能是一個壞主意。

Word2Vec算法趨向於隨着(好)文本數量的增加而產生更好的準確性。我目前的做法是使用維基百科轉儲,並通過爬行檢索的內容對其進行補充。

作爲獲得更高質量文本的第一種方式,我的抓取工具使用優質網站(新聞網站,政府和行政部門,大學等)的白名單,因此將僅從本網站檢索內容。

我仍然保留一些不好的文字,至少有一些表達的口頭語言,對話,俚語......取決於使用情況,它可能被證明是有用的。

希望有所幫助。

相關問題