網頁的二元分類

我們感興趣的是對整個網頁上存在的網頁進行二元分類，電子商務與非電子商務。網頁的二元分類

目前，我們使用Mahout庫和樸素貝葉斯算法。我們正在創建來自現有分類URL的訓練數據和來自相同的功能集。

就準確性而言，執行此任務的最佳方式是什麼？

我需要算法，庫（可用於JAVA）或任何更好的想法幫助這種類型的分類方面的幫助。

在此先感謝。

問題是相當一般的，所以我只能添加一般信息。

提高你的分類的質量是（按重要性排序）的方式：

2012-01-13 09:34:28 andrey

還有其他網頁特定的標準化...例如將所有電子郵件替換爲「EMAIL」，將所有域名替換爲「DOMAIN」等等......只需找到並替換即可。這就是CRM114的工作原理。 – 2012-01-13 10:03:53

@andrey我們已經在做a）詞幹和b）停止單詞移除。 – instanceOfObject 2012-01-13 11:04:59

This one是關於NB分類器算法的非常好的演示。

捨棄最常見的單詞會導致更好的預測。 IDF可以成爲過濾這些單詞的好工具。另請參閱Wikipedia。

2012-01-13 09:26:25 0605002

您可以嘗試使用一些現有的，精心調校程序，...

CRM411被設計成垃圾郵件過濾器，但它足夠通用，可以做你想做的事。人們用它來排序簡歷和東西。它有很多引擎（HMM，SVM，CLUMP，Bayes等）。試一試。

2012-01-13 10:08:42

對於不同的庫和算法之間的相對比較，你有什麼想法嗎？ – instanceOfObject 2012-01-13 13:57:36

回答