2012-01-22 71 views
6

在一個項目中有一個模塊需要一個URL並確定它是「電子商務」還是「非電子商務」網站。如何以編程方式查找某個網址是否爲電子商務或非電子商務網站?

我曾嘗試以下方法:

  1. 使用Apache Mahout中,分類:URL --->以HTML轉儲--->前處理HTML通過 轉儲)移除所有的HTML標籤

    b)刪除類似CDATA,href,值和之間的停用詞(又名通用詞)

    c)訓練模型然後測試它。

繼PARAMS我已經用於訓練

倉/亨利馬烏trainclassifier \ -i訓練數據\ -o貝葉斯模型\>型貝葉斯-ng 1

測試:

/bin/mahout testclassifier \ 
    -d test-data \ 
    -m bayes-model \ 
    -type bayes -source hdfs -ng 1 -method sequential 

精度我得到73%和cbayes算法獲得52%。

我想通過提取電子商務網站中的信息,如「結帳按鈕」,「支付朋友鏈接」,「價格/美元符號」,像「貨到付款」,「30一天保證「等。

有關如何提取此信息或任何其他方式預測網站爲電子商務或非電子商務的任何建議?

+2

請在下次更仔細地格式化您的問題。順便說一句,70%的準確性是一開始就相當不錯的。 –

回答

1

我非常驚訝,你得到這樣一個很好的準確性,只是簡單的HTML提取和貝葉斯分類器。

但是,您似乎正處於正確的軌道上,具有結賬按鈕和價格等功能。

這裏是一紙我昨天發現一邊唸叨Yandex的:

"To find out or to buy? Product review vs. Web shop classifier"

它是關於他們如何不同這兩個網站和一些技術使用。他們也用SVM代替樸素貝葉斯。

+0

謝謝托馬斯。 Paper的目標是我們的類似用例。 – geek