抓取單個域及其所有子網站的Java爬蟲

我一直在尋找並查看許多不同的抓取工具。但我不太確定哪一個要去。抓取單個域及其所有子網站的Java爬蟲

我的目標是搜索全域即http://www.example.com和它的所有子網站即http://www.example.com/page1 然後事後可以通過不同的標籤來搜索特別的圖像標籤找出其根源。

到目前爲止，只有一個履帶已經吸引了我的眼球：

jsoup

任何想法？

來源

2013-08-05 Marc Rasmussen

我可能是錯的，但你問不只是履帶但對於HTML分析儀 - 這是可以理解的HTML標籤......

如果是的話，你可以用JSoup去，甚至用正則表達式解析。

如果你真的需要一個爬蟲，你可能會發現Nutch是一個下降的開源爬蟲

希望這有助於

來源

2013-08-05 12:37:33

我覺得其實HTML分析儀也正是在這種情況下使用正確的字。你知道JSoup是否允許我抓取域中的每個子網站，即使我「不知道」網站上的所有specefic位置？即只有輸入www.example.com才能找到並分析example.com的所有子網站？ –

我認爲JSoup不打算這樣做，它是一個HTML分析器，而不是一個爬蟲。沒有技術方法可以分析example.com的所有子網站，因爲爬網程序無法知道網頁可用的地址。相反，抓取工具會從一些「種子數據」（如www.example.com）開始，然後在頁面內查找鏈接，然後「抓取」 - 下載這些鏈接可用的頁面，查找其中的鏈接等等。例如，您可以將此過程視爲圖遍歷。所以我認爲你應該使用Nutch（任何其他爬蟲）和JSoup。 –

Nope :) Nutch - 爬行，JSoup只能映射標籤:) Crawler從互聯網獲取數據（頁面）並將它們作爲一系列文件下載到您的硬盤中。 JSoup可以讀取該文件並解析（提取標籤等）。 –

抓取單個域及其所有子網站的Java爬蟲

回答

相關問題