2010-04-06 82 views
-1

我可以通過cygwin在Windows XP上成功運行抓取命令。我也可以通過使用tomcat進行網絡搜索。如何在抓取時解析(僅文本)網站

,但我也想爬事件

所以在保存解析的頁面時,我開始爬行,像這樣

斌/ Nutch的抓取網址-dir爬-depth 3

我也想保存解析的HTML文件,在此期間,我開始與上面的命令

取Nutch的文本文件時

我的意思編輯一個頁面,也將會被自動保存頁面解析(純文本)文本文件

這些文件名可以獲取URL

我真的需要幫助這個

這將在我的大學使用語言檢測項目

ty

回答

1

抓取的頁面存儲在段中。您可以通過轉儲細分內容來訪問它們:

nutch readseg -dump crawl/segments/20100104113507/ dump 

您必須爲每個細分受衆羣執行此操作。