將序列文件轉換爲向量

我正試圖實施naïvebayes算法來對mahout中的tweet和facebook數據進行情感分析。我在文本文件中提供了這些推文和facebook數據。我使用的命令轉換這些文件中，以序列文件將序列文件轉換爲向量

倉/亨利馬烏seqdirectory -i /用戶/ hadoopUser /樣品/輸入-o /用戶/ hadoopUser /樣品/ seqoutput

，然後我試圖轉換到載體序列文件，爲了給輸入用命令亨利馬烏

倉/亨利馬烏seq2sparse -i /用戶/ hadoopUser /樣品/ seqoutput -o /用戶/ hadoopUser/vectoroutput -OW -a org.apache。 lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq

這是將整個文檔轉換爲到矢量，但我想將每個句子轉換爲矢量，因爲我不想對文檔進行分類。我想分類文件中的評論。任何人都可以幫我解決這個問題嗎？

來源

2013-03-18 DOK

你應該有一個CSV文件與鳴叫數據權利？我正在處理這個完全相同的問題。我做了什麼（我不知道它是否工作，因爲我甚至不知道如何解釋集羣輸出，它只是一堆數字和單詞）我使用Mahout的SequenceWriter將我的CSV文件的每一列寫入序列文件類。然後在該序列文件上使用seq2sparse，就像正常一樣。

來源

2013-07-04 14:21:17 DickFeynman

我不是100％確定，但主要問題是，mahout會將此文件看作一個鍵/值。您需要爲每行添加其他ID，例如md5哈希。所以CSV格式將是：

positive bf9373d6d85959ec755eb8ac5ba0ae77 This movie is a real masterpiece

來源

2014-01-11 16:28:57 elkoo

將序列文件轉換爲向量

回答

相關問題