2012-06-21 105 views
-1

我想收集域名(爬行)。我寫了一個簡單的Java應用程序,它讀取HTML頁面並將代碼保存在文本文件中。現在,我想分析這些文本,以便收集所有沒有重複名稱的域名。但我需要的域名沒有「http://www」,只是domainname.topleveldmian或dmianname.subdomain.topleveldomain或任何數量的子域的可能性(然後,收集的鏈接需要以相同的方式提取並收集它們內部的鏈接直到我達到了一定數量的鏈接,比如說100)。JSoup是否實現了這個目標?

我在以前的帖子中詢問過這個問題https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames,並進行了搜索。 JSoup似乎是一個很好的解決方案,但之前我還沒有用過JSoup,所以在深入研究之前。我只想問:它是否達到我想要做的?歡迎任何其他建議以簡單的方式實現簡單的抓取。

回答

0

jsoup是一個用於處理真實世界HTML的Java庫。它提供 用於提取和操縱數據,使用 最好的DOM,CSS和jQuery的類似方法

所以,您可以連接到一個網站提取它的HTML和解析這是一個非常方便的API與jsoup。

提取頂級域名的邏輯是您自己需要編寫代碼邏輯的「你的一部分」。


看一看的文檔查看選項...

Use selector-syntax to find elements

Use DOM methods to navigate a document

相關問題