我想收集域名(爬行)。我寫了一個簡單的Java應用程序,它讀取HTML頁面並將代碼保存在文本文件中。現在,我想分析這些文本,以便收集所有沒有重複名稱的域名。但我需要的域名沒有「http://www」,只是domainname.topleveldmian或dmianname.subdomain.topleveldomain或任何數量的子域的可能性(然後,收集的鏈接需要以相同的方式提取並收集它們內部的鏈接直到我達到了一定數量的鏈接,比如說100)。JSoup是否實現了這個目標?
我在以前的帖子中詢問過這個問題https://stackoverflow.com/questions/11113568/simple-efficient-java-web-crawler-to-extract-hostnames,並進行了搜索。 JSoup似乎是一個很好的解決方案,但之前我還沒有用過JSoup,所以在深入研究之前。我只想問:它是否達到我想要做的?歡迎任何其他建議以簡單的方式實現簡單的抓取。