在一個項目中有一個模塊需要一個URL並確定它是「電子商務」還是「非電子商務」網站。如何以編程方式查找某個網址是否爲電子商務或非電子商務網站?
我曾嘗試以下方法:
使用Apache Mahout中,分類:URL --->以HTML轉儲--->前處理HTML通過 轉儲)移除所有的HTML標籤
b)刪除類似CDATA,href,值和之間的停用詞(又名通用詞)
c)訓練模型然後測試它。
繼PARAMS我已經用於訓練
倉/亨利馬烏trainclassifier \ -i訓練數據\ -o貝葉斯模型\>型貝葉斯-ng 1
測試:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
精度我得到73%和cbayes算法獲得52%。
我想通過提取電子商務網站中的信息,如「結帳按鈕」,「支付朋友鏈接」,「價格/美元符號」,像「貨到付款」,「30一天保證「等。
有關如何提取此信息或任何其他方式預測網站爲電子商務或非電子商務的任何建議?
請在下次更仔細地格式化您的問題。順便說一句,70%的準確性是一開始就相當不錯的。 –