2012-03-06 28 views
0

我有一組使用nutch抓取的頁面。而且我知道這些爬網頁面被保存爲段。我想從這些頁面中提取某些關鍵值並將其作爲xml提供給solr。使用nutch抓取頁面的後處理

一個示例情況是,我爬了一個包含許多產品列表的購物網站。我想提取關鍵的信息,如名稱,價格,產品規格,並忽略其餘的數據。所以我可以提供來解決一些xml,如 qwerty123qwerty 這是這樣的,使用solr我應該能夠根據價格對不同的產品列表進行排序。

現在如何完成這個提取部分?地圖是否縮小到圖片的任何位置?

回答

1

將原始網頁轉化爲信息並不是一項簡單的任務。一個用於這項工作的工具是Boilerpipe。但是,它不會給你一個解決方案。

如果您正在研究固定目標,您可能只需編寫自己的程序代碼來查找所需的數據。如果您需要以任意HTML格式查找這類內容,您將面臨一個非常棘手的問題,即沒有現成的解決方案。

+0

它不是真的任意的HTML。提取部分實際上可以用簡單的正則表達式來完成。我在考慮是否有任何解析由nutch創建的細分的具體解決方案。 – qwerty123 2012-03-06 16:58:27

+0

Nutch剛剛抓住了whar的文字通過http回來,不是嗎? – bmargulies 2012-03-06 18:55:07

+0

是的。但似乎存儲在一些其他格式,而不是HTML或TXT格式 – qwerty123 2012-03-08 11:29:37