使用nutch抓取頁面的後處理

我有一組使用nutch抓取的頁面。而且我知道這些爬網頁面被保存爲段。我想從這些頁面中提取某些關鍵值並將其作爲xml提供給solr。使用nutch抓取頁面的後處理

一個示例情況是，我爬了一個包含許多產品列表的購物網站。我想提取關鍵的信息，如名稱，價格，產品規格，並忽略其餘的數據。所以我可以提供來解決一些xml，如 qwerty123qwerty 這是這樣的，使用solr我應該能夠根據價格對不同的產品列表進行排序。

現在如何完成這個提取部分？地圖是否縮小到圖片的任何位置？

2012-03-06 qwerty123

將原始網頁轉化爲信息並不是一項簡單的任務。一個用於這項工作的工具是Boilerpipe。但是，它不會給你一個解決方案。

如果您正在研究固定目標，您可能只需編寫自己的程序代碼來查找所需的數據。如果您需要以任意HTML格式查找這類內容，您將面臨一個非常棘手的問題，即沒有現成的解決方案。

2012-03-06 14:46:32 bmargulies

它不是真的任意的HTML。提取部分實際上可以用簡單的正則表達式來完成。我在考慮是否有任何解析由nutch創建的細分的具體解決方案。 – qwerty123 2012-03-06 16:58:27

Nutch剛剛抓住了whar的文字通過http回來，不是嗎？ – bmargulies 2012-03-06 18:55:07

是的。但似乎存儲在一些其他格式，而不是HTML或TXT格式 – qwerty123 2012-03-08 11:29:37

回答