2011-12-28 40 views
0

我會有點冗長,明確規定的問題,所以請耐心等待:)使用Nutch的抓取特定HTML標籤

假設我有以下基本網址:http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
列出多項產品與簡潔的描述。每個列出的產品都有一個指向詳細產品信息頁面的URL,例如:http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

現在我的要求是(例如)獲取每個產品的名稱,價格和產品信息。我如何使用Nutch實現這一點? Nutch是否需要/很好的選擇,或者只是一個簡單的wget +自己的HTML解析器是一個更好的方法去?

注:我不得不這樣做了多個頁面具有非常不同的佈局,只有輸入將是URL和內容的HTML標籤來從URL

回答

0

同樣的問題工作取。然而,好像有一些累人步驟來實現這一目標:

1 - 2爬行索引3送由-readseg原始HTML 4解析爲信息的文件你想

所以,Nutch似乎不是這樣做的好方法。你有沒有設法找出答案?