如何在抓取時解析（僅文本）網站

-1

我可以通過cygwin在Windows XP上成功運行抓取命令。我也可以通過使用tomcat進行網絡搜索。如何在抓取時解析（僅文本）網站

，但我也想爬事件

所以在保存解析的頁面時，我開始爬行，像這樣

斌/ Nutch的抓取網址-dir爬-depth 3

我也想保存解析的HTML文件，在此期間，我開始與上面的命令

取Nutch的文本文件時

我的意思編輯一個頁面，也將會被自動保存頁面解析（純文本）文本文件

這些文件名可以獲取URL

我真的需要幫助這個

這將在我的大學使用語言檢測項目

抓取的頁面存儲在段中。您可以通過轉儲細分內容來訪問它們：

nutch readseg -dump crawl/segments/20100104113507/ dump

您必須爲每個細分受衆羣執行此操作。

2010-04-15 13:22:25

回答