分佈式(部署)模式Nutch的抓取之後如下:提取擷取的網頁中的Map Reduce友好的格式
bin/nutch crawl s3n://..... -depth 10 -topN 50000 -dir /crawl -threads 20
我需要提取與它一起取每個URL是在一個地圖縮小內容友好的格式。通過使用下面的readseg命令,可以獲取內容,但輸出格式不適用於映射縮減。
bin/nutch readseg -dump /crawl/segments/* /output -nogenerate -noparse -noparsedata -noparsetext
理想的輸出應爲以下格式:
http://abc.com/1 content of http://abc.com/1
http://abc.com/2 content of http://abc.com/2
就如何實現這一目標有什麼建議?
那對@TejasP我結束了修改的Nutch的源代碼中的答案 – Sid 2012-04-13 23:09:46