2010-04-25 113 views
1

我正在尋找信息提取庫,我可以獲得可能具有隱藏或不完整數據的半結構化信息。我想訓練一些分類器根據結構提取內容。信息提取工具包

我正在構建一個工具,我可以在瀏覽器中選擇文本,並且它將生成(通過某些Web服務調用)可用於其他文檔以提取文本的分類器。

我主要看看如何使用文檔的結構來指示內容是什麼。

回答

1

聽起來像你正在尋找某種類型的html解析器生成器。有一個Web服務(我不記得它的名字)可以讓你選擇頁面上的區域,並且會生成xpath解析規則,但是我不確定它的工作效果如何,或者即使它仍然存在。

通常,如果您可以編寫代碼,最簡單的方法就是自己編寫解析器。我推薦BeautifulSouplxml

+0

好吧,寫一個解析器是相當直接的;編寫1000個解析器並維護它們是另一回事。 – MathGladiator 2010-05-09 06:12:08

+0

是的,1000個解析器會吸。因此,我建議讓瀏覽器工具爲每個網站生成xpath提取表達式,然後使用xpath表達式來提取內容的通用解析器引擎。但是您仍然有維護問題,因爲網站會在不通知您的情況下更新其結構。 – Jacob 2010-05-10 14:39:15