Q

使用Nutch的抓取特定HTML標籤

2011-12-28 40 views 0 likes

0

我會有點冗長，明確規定的問題，所以請耐心等待:)使用Nutch的抓取特定HTML標籤

假設我有以下基本網址：http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
列出多項產品與簡潔的描述。每個列出的產品都有一個指向詳細產品信息頁面的URL，例如：http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

現在我的要求是（例如）獲取每個產品的名稱，價格和產品信息。我如何使用Nutch實現這一點？ Nutch是否需要/很好的選擇，或者只是一個簡單的wget +自己的HTML解析器是一個更好的方法去？

注：我不得不這樣做了多個頁面具有非常不同的佈局，只有輸入將是URL和內容的HTML標籤來從URL

2011-12-28 Kartik Rustagi

A

回答

0

同樣的問題工作取。然而，好像有一些累人步驟來實現這一目標：

1 - 2爬行索引3送由-readseg原始HTML 4解析爲信息的文件你想

所以，Nutch似乎不是這樣做的好方法。你有沒有設法找出答案？

2012-04-13 14:17:36

相關問題