2012-11-06 35 views

回答

1

如果你能自動做到這一點,爲什麼你需要你的分類器呢?

所以答案是:如果你真的想生成地面實況數據,沒有自動的方法。

如果可能的話,您應該查找先前準備好的標記數據集。否則,您將手動標記所有數據,對不起。

+0

任何啓發式使任務更簡單? –

0

您的分類器需要一些訓練數據,這是您的意思嗎?

我最近遇到了同樣的問題,所以我最終做的是我得到了一個簡單的類別和子類別列表,我對這些類型進行了迭代,並嘗試爲每個類別自動提取維基百科文章。

對於類別分類本身,請看http://rdf.dmoz.org/rdf/,這裏有一個categories.txt文件,您可以將其剝離到所需的級別數。 (我使用了兩個級別,所以只有類別和直接子類別)

對於文章提取,您可以使用Goose,這是一個非常易於使用的Python庫,它可以拉取文檔的HTML並將主要文章主體從中移出。

由於我遇到了完全相同的事情,我創建了一個小腳本來完成所有這些工作,請檢查它here

相關問題