2012-01-13 70 views
3

我們感興趣的是對整個網頁上存在的網頁進行二元分類,電子商務與非電子商務。網頁的二元分類

目前,我們使用Mahout庫和樸素貝葉斯算法。我們正在創建來自現有分類URL的訓練數據和來自相同的功能集。

就準確性而言,執行此任務的最佳方式是什麼?

我需要算法,庫(可用於JAVA)或任何更好的想法幫助這種類型的分類方面的幫助。

在此先感謝。

回答

3

問題是相當一般的,所以我只能添加一般信息。

提高你的分類的質量是(按重要性排序)的方式:

  • 使用Lemmatisation和/或Stemming只用基數詞形式
  • 實現詞過濾去除沒用的話
  • 訓練單獨分類爲不同的語言
+0

還有其他網頁特定的標準化...例如將所有電子郵件替換爲「EMAIL」,將所有域名替換爲「DOMAIN」等等......只需找到並替換即可。這就是CRM114的工作原理。 – 2012-01-13 10:03:53

+0

@andrey我們已經在做a)詞幹和b)停止單詞移除。 – instanceOfObject 2012-01-13 11:04:59

0

This one是關於NB分類器算法的非常好的演示。

捨棄最常見的單詞會導致更好的預測。 IDF可以成爲過濾這些單詞的好工具。另請參閱Wikipedia

1

您可以嘗試使用一些現有的,精心調校程序,...

CRM411被設計成垃圾郵件過濾器,但它足夠通用,可以做你想做的事。人們用它來排序簡歷和東西。它有很多引擎(HMM,SVM,CLUMP,Bayes等)。試一試。

+0

對於不同的庫和算法之間的相對比較,你有什麼想法嗎? – instanceOfObject 2012-01-13 13:57:36