2013-03-18 122 views
1

我正試圖實施naïvebayes算法來對mahout中的tweet和facebook數據進行情感分析。我在文本文件中提供了這些推文和facebook數據。我使用的命令轉換這些文件中,以序列文件將序列文件轉換爲向量

倉/亨利馬烏seqdirectory -i /用戶/ hadoopUser /樣品/輸入-o /用戶/ hadoopUser /樣品/ seqoutput

,然後我試圖轉換到載體序列文件,爲了給輸入用命令亨利馬烏

倉/亨利馬烏seq2sparse -i /用戶/ hadoopUser /樣品/ seqoutput -o /用戶/ hadoopUser/vectoroutput -OW -a org.apache。 lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq

這是將整個文檔轉換爲到矢量,但我想將每個句子轉換爲矢量,因爲我不想對文檔進行分類。我想分類文件中的評論。任何人都可以幫我解決這個問題嗎?

回答

0

你應該有一個CSV文件與鳴叫數據權利?我正在處理這個完全相同的問題。我做了什麼(我不知道它是否工作,因爲我甚至不知道如何解釋集羣輸出,它只是一堆數字和單詞)我使用Mahout的SequenceWriter將我的CSV文件的每一列寫入序列文件類。然後在該序列文件上使用seq2sparse,就像正常一樣。

0

我不是100%確定,但主要問題是,mahout會將此文件看作一個鍵/值。 您需要爲每行添加其他ID,例如md5哈希。所以CSV格式將是:

positive bf9373d6d85959ec755eb8ac5ba0ae77 This movie is a real masterpiece