問題陳述有點像這樣:二元分類與基於規則的方法,而不是正確的算法
給出一個網站,我們必須把它分爲兩個預定義的類別之一(說無論是其電子商務網站或不是?)
我們已經嘗試了樸素貝葉斯算法爲此與多種預處理技術(停止詞去除,詞幹等)和適當的功能。
我們希望將精度提高到90或更接近一些,這是我們從這種方法中得不到的。
這裏的問題是,在手動評估精度的同時,我們在網頁上尋找一些標識符(例如Checkout按鈕,Shop/Shopping,paypal等等),這些標識符在我們的算法中有時會被忽略。
我們在想,如果我們太確定這些標識符,爲什麼我們不創建rule based classifier
,我們將按照一組規則(將根據一些優先級編寫)對頁面進行分類。
例如如果它包含商店/購物並且具有結賬按鈕,那麼它是電子商務頁面。 和許多類似的規則在一些優先順序。
根據一些規則,我們也會訪問網站的其他頁面(目前,我們只訪問主頁,這也是沒有得到非常高的準確性的原因)。
基於規則的方法會遇到什麼潛在問題?或者這對我們的用例會更好?
用複雜的算法創建這些規則(例如FOIL, AQ
等)會是一個好主意嗎?
因此,防止「基於每個規則的分類器可以表示爲決策樹」或「基於規則的分類器等同於決策樹」的陳述唯一的事實是人們可以創建具有周期的不相關規則集或規則集,而根據定義,決策樹是非循環的? –