0
我有一組使用nutch抓取的頁面。而且我知道這些爬網頁面被保存爲段。我想從這些頁面中提取某些關鍵值並將其作爲xml提供給solr。使用nutch抓取頁面的後處理
一個示例情況是,我爬了一個包含許多產品列表的購物網站。我想提取關鍵的信息,如名稱,價格,產品規格,並忽略其餘的數據。所以我可以提供來解決一些xml,如 qwerty123qwerty 這是這樣的,使用solr我應該能夠根據價格對不同的產品列表進行排序。
現在如何完成這個提取部分?地圖是否縮小到圖片的任何位置?
它不是真的任意的HTML。提取部分實際上可以用簡單的正則表達式來完成。我在考慮是否有任何解析由nutch創建的細分的具體解決方案。 – qwerty123 2012-03-06 16:58:27
Nutch剛剛抓住了whar的文字通過http回來,不是嗎? – bmargulies 2012-03-06 18:55:07
是的。但似乎存儲在一些其他格式,而不是HTML或TXT格式 – qwerty123 2012-03-08 11:29:37