2013-03-15 32 views
1

我是mahout的初學者。我不知道如何使用mahout中的naive bayes分類器創建我們自己的情感分析模型。我想創建我自己的模型來在一些日誌數據之上進行情緒分析。是否有一步一步的程序來做到這一點。像什麼是我們必須實現的類,以及如何創建模型或我們如何在mahout中使用現有的模型。任何幫助,將不勝感激。 在此先感謝。如何在mahout中使用樸素貝葉斯分類器創建自己的情感分析模型?

回答

0

你可以在this presentation中看到一個關於在Mahou中使用Naive Bayes分類器進行分析的步驟的很好的指南。這是一步一步的程序。

深入用樸素貝葉斯進行分類。一路走來,我們從Ian Witten的數據挖掘書籍中查看一些基礎知識,並深入瞭解算法....

+0

這裏是我做了什麼至今。 1.手動創建列車數據集。 文件內容是這樣的... 正面的產品是非常好的 負面的劣質產品 中性這個產品好。 2.將此文件轉換爲序列文件,然後轉換爲向量。 在這之後我不確定是否必須將此訓練數據提供給mahout中的現有樸素貝葉斯,或者我必須創建一個使用樸素貝葉斯分類數據的新訓練數據。 – user2175315 2013-03-16 10:08:46

+0

這方面的進展如何? – emecas 2013-03-19 10:29:00

+0

謝謝emecas ...我手動創建了訓練數據,但我不知道如何將列車數據中的每一行轉換爲稀疏矢量。 seq2sparse命令將整個文件轉換爲向量。我想轉換每一行。 這是我所做的。我不知道它有什麼問題。 http://stackoverflow.com/questions/15540387/how-to-vectorize-text-file-in-mahout – user2175315 2013-03-22 04:51:05

0

那麼你看看quickstart

第一步是評估你的語料庫。你的日誌數據如何標記?你有多少數據?如果您有一個帶標籤的語料庫,那麼只需按照快速入門並替換示例中語料庫的語料庫。

在你開始編寫代碼之前,你必須有一個高質量的語料庫。確保你的例子是平衡的,你有足夠的數據來訓練。您可以查看一些研究語料庫,瞭解有關培訓所需的一般概念。我會消化路透社21578語料庫,或者如果你能得到它的RCV-1語料庫。

+0

我的日誌數據是非結構化和未標記的。我想將評論分爲正面,負面和中性,我不確定我是否可以在mahout中使用現有的樸素貝葉斯模型,或者我需要創建一個新的模型。 – user2175315 2013-03-16 10:01:45

+0

如果你想使用機器學習,你必須有一個帶標籤的數據集。首先標記現有數據,然後使用標記的數據對分類器進行訓練。然後,您可以使用訓練的分類器處理新的未查看數據。 – Shane 2013-03-21 22:12:52

+0

感謝您的回覆。我已經手動創建了標籤數據。用培訓集數據訓練mahout樸素貝葉斯,我們需要將這些數據轉換爲sequenece然後稀疏。 Seq2Sparse命令轉換整個文件,而不是我想將每一行轉換爲vector.pls幫助,如何將每行轉換爲vactor。 – user2175315 2013-03-22 04:47:31

相關問題