2013-08-05 105 views
0

我一直在尋找並查看許多不同的抓取工具。但我不太確定哪一個要去。抓取單個域及其所有子網站的Java爬蟲

我的目標是搜索全域即http://www.example.com和它的所有子網站即http://www.example.com/page1 然後事後可以通過不同的標籤來搜索特別的圖像標籤找出其根源。

到目前爲止,只有一個履帶已經吸引了我的眼球:

jsoup

任何想法?

回答

1

我可能是錯的,但你問不只是履帶但對於HTML分析儀 - 這是可以理解的HTML標籤......

如果是的話,你可以用JSoup去,甚至用正則表達式解析。

如果你真的需要一個爬蟲,你可能會發現Nutch是一個下降的開源爬蟲

希望這有助於

+0

我覺得其實HTML分析儀也正是在這種情況下使用正確的字。你知道JSoup是否允許我抓取域中的每個子網站,即使我「不知道」網站上的所有specefic位置?即只有輸入www.example.com才能找到並分析example.com的所有子網站? –

+0

我認爲JSoup不打算這樣做,它是一個HTML分析器,而不是一個爬蟲。沒有技術方法可以分析example.com的所有子網站,因爲爬網程序無法知道網頁可用的地址。相反,抓取工具會從一些「種子數據」(如www.example.com)開始,然後在頁面內查找鏈接,然後「抓取」 - 下載這些鏈接可用的頁面,查找其中的鏈接等等。例如,您可以將此過程視爲圖遍歷。所以我認爲你應該使用Nutch(任何其他爬蟲)和JSoup。 –

+0

Nope :) Nutch - 爬行,JSoup只能映射標籤:) Crawler從互聯網獲取數據(頁面)並將它們作爲一系列文件下載到您的硬盤中。 JSoup可以讀取該文件並解析(提取標籤等)。 –