如何在mahout中使用樸素貝葉斯分類器創建自己的情感分析模型？

我是mahout的初學者。我不知道如何使用mahout中的naive bayes分類器創建我們自己的情感分析模型。我想創建我自己的模型來在一些日誌數據之上進行情緒分析。是否有一步一步的程序來做到這一點。像什麼是我們必須實現的類，以及如何創建模型或我們如何在mahout中使用現有的模型。任何幫助，將不勝感激。在此先感謝。如何在mahout中使用樸素貝葉斯分類器創建自己的情感分析模型？

來源

2013-03-15 user2175315

你可以在this presentation中看到一個關於在Mahou中使用Naive Bayes分類器進行分析的步驟的很好的指南。這是一步一步的程序。

深入用樸素貝葉斯進行分類。一路走來，我們從Ian Witten的數據挖掘書籍中查看一些基礎知識，並深入瞭解算法....

來源

2013-03-15 19:56:23 emecas

這裏是我做了什麼至今。 1.手動創建列車數據集。文件內容是這樣的... 正面的產品是非常好的負面的劣質產品中性這個產品好。 2.將此文件轉換爲序列文件，然後轉換爲向量。在這之後我不確定是否必須將此訓練數據提供給mahout中的現有樸素貝葉斯，或者我必須創建一個使用樸素貝葉斯分類數據的新訓練數據。 – user2175315 2013-03-16 10:08:46

這方面的進展如何？ – emecas 2013-03-19 10:29:00

謝謝emecas ...我手動創建了訓練數據，但我不知道如何將列車數據中的每一行轉換爲稀疏矢量。 seq2sparse命令將整個文件轉換爲向量。我想轉換每一行。這是我所做的。我不知道它有什麼問題。 http://stackoverflow.com/questions/15540387/how-to-vectorize-text-file-in-mahout – user2175315 2013-03-22 04:51:05

那麼你看看quickstart？

第一步是評估你的語料庫。你的日誌數據如何標記？你有多少數據？如果您有一個帶標籤的語料庫，那麼只需按照快速入門並替換示例中語料庫的語料庫。

在你開始編寫代碼之前，你必須有一個高質量的語料庫。確保你的例子是平衡的，你有足夠的數據來訓練。您可以查看一些研究語料庫，瞭解有關培訓所需的一般概念。我會消化路透社21578語料庫，或者如果你能得到它的RCV-1語料庫。

來源

2013-03-15 19:57:28 Shane

我的日誌數據是非結構化和未標記的。我想將評論分爲正面，負面和中性，我不確定我是否可以在mahout中使用現有的樸素貝葉斯模型，或者我需要創建一個新的模型。 – user2175315 2013-03-16 10:01:45

如果你想使用機器學習，你必須有一個帶標籤的數據集。首先標記現有數據，然後使用標記的數據對分類器進行訓練。然後，您可以使用訓練的分類器處理新的未查看數據。 – Shane 2013-03-21 22:12:52

感謝您的回覆。我已經手動創建了標籤數據。用培訓集數據訓練mahout樸素貝葉斯，我們需要將這些數據轉換爲sequenece然後稀疏。 Seq2Sparse命令轉換整個文件，而不是我想將每一行轉換爲vector.pls幫助，如何將每行轉換爲vactor。 – user2175315 2013-03-22 04:47:31

你可以看到下面的博客，在這裏一步步過程進行了詳細解釋： http://instantjavasolutions.blogspot.in/2014/10/how-to-train-my-own-model-using-mahout.html

來源

2014-10-13 16:58:30 Sanju2014

如何在mahout中使用樸素貝葉斯分類器創建自己的情感分析模型？

回答

相關問題