2012-06-13 35 views
1

我正在開發一個項目,我需要執行&網頁的功能分類,如Qi和Davison在Web Page Classification: Features and Algorithms 中所述。例如,我可能希望能夠判斷某個特定頁面是否與音樂有關,以及它是一個集合(鏈接列表)還是主題(有關集合中某個特定鏈接的數據)頁面。對於主題分類,我使用DMOZ Directory數據的子集來生成一組訓練樣例,方法是將以特定主題標記的網站作爲正面示例進行爬網,並附帶反面示例。功能性網頁分類的可用培訓數據

我對功能分類方法不太清楚。本質上,我需要一種方法來查找一組按類型標記的網址:集合頁面,主題頁面等。手動生成集合可能不太可行,並且我希望能夠在網頁更改時更新分類器有點規律。我可以在哪些地方找到標記數據用於我的訓練集?

回答