2013-11-28 87 views
1

文本語料庫格式,我發現,在大數據集維基百科 http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
我想建立類似的丹尼爾,他已經證明他的教程中的一個yhat休息API使用word2vec的教程。自然語言處理:爲word2vec

今天我把我想分析的一些西班牙報紙文章放在一起。我的網站非常有規律地檢索了我的數據格式,因此我有1000個文章以字符串形式存儲,例如

"Otros se dan a conocer por la simpleza, como Sonya Cortés, 
quien expresó que atesora compartir en familia y gozar de salud. 
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz, 
aprovechará para estrenar su nueva piscina ya que por su agenda 
de trabajo no ha podido darse un chapuzón todavía. Mientras,  
Daddy Yankee se tomará un descanso con la familia luego de una larga gira." 

我熟悉Python和希望使用教程列出的Python包裝: https://github.com/danielfrg/word2vec

如何將我的文集加載到word2vec?現在我有一個字符串數組。

目前我的語料庫適合記憶。 word2vec仍然是正確的工具嗎?

回答

0

嘗試http://radimrehurek.com/gensim/models/word2vec.html

目前我的語料庫適合記憶。 word2vec仍然是正確的 工具嗎?

是的。 Word2vec(C和Python版本)可以使用大於RAM的語料庫。當然,小於RAM的工作也是如此。

+0

酷!我正在嘗試,但我卡住了。 http://stackoverflow.com/questions/20362993/how-to-load-sentences-into-python-gensim –

+0

我知道。我也在那裏評論:) – Radim

1

如果

現在我有一個字符串

你的意思是它已經標記化的數組。

sentences = gensim.models.word2vec.LineSentence(path_to_corpus) 
model = gensim.models.Word2Vec(sentences, min_count=10, size=500, window=10, sg=1, workers=4) 

句子必須是串即列表清單:

[這是我的,首先,句子] [本,是的,第二]