我們感興趣的是對整個網頁上存在的網頁進行二元分類,電子商務與非電子商務。網頁的二元分類
目前,我們使用Mahout庫和樸素貝葉斯算法。我們正在創建來自現有分類URL的訓練數據和來自相同的功能集。
就準確性而言,執行此任務的最佳方式是什麼?
我需要算法,庫(可用於JAVA)或任何更好的想法幫助這種類型的分類方面的幫助。
在此先感謝。
我們感興趣的是對整個網頁上存在的網頁進行二元分類,電子商務與非電子商務。網頁的二元分類
目前,我們使用Mahout庫和樸素貝葉斯算法。我們正在創建來自現有分類URL的訓練數據和來自相同的功能集。
就準確性而言,執行此任務的最佳方式是什麼?
我需要算法,庫(可用於JAVA)或任何更好的想法幫助這種類型的分類方面的幫助。
在此先感謝。
問題是相當一般的,所以我只能添加一般信息。
提高你的分類的質量是(按重要性排序)的方式:
您可以嘗試使用一些現有的,精心調校程序,...
CRM411被設計成垃圾郵件過濾器,但它足夠通用,可以做你想做的事。人們用它來排序簡歷和東西。它有很多引擎(HMM,SVM,CLUMP,Bayes等)。試一試。
對於不同的庫和算法之間的相對比較,你有什麼想法嗎? – instanceOfObject 2012-01-13 13:57:36
還有其他網頁特定的標準化...例如將所有電子郵件替換爲「EMAIL」,將所有域名替換爲「DOMAIN」等等......只需找到並替換即可。這就是CRM114的工作原理。 – 2012-01-13 10:03:53
@andrey我們已經在做a)詞幹和b)停止單詞移除。 – instanceOfObject 2012-01-13 11:04:59