我會有點冗長,明確規定的問題,所以請耐心等待:)使用Nutch的抓取特定HTML標籤
假設我有以下基本網址:http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
列出多項產品與簡潔的描述。每個列出的產品都有一個指向詳細產品信息頁面的URL,例如:http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5
現在我的要求是(例如)獲取每個產品的名稱,價格和產品信息。我如何使用Nutch實現這一點? Nutch是否需要/很好的選擇,或者只是一個簡單的wget +自己的HTML解析器是一個更好的方法去?
注:我不得不這樣做了多個頁面具有非常不同的佈局,只有輸入將是URL和內容的HTML標籤來從URL