如何編寫代碼來抓取這個?獲取許多網站和服務的主機
一個網站提供了查找是哪個公司在託管的特定網站或服務:
例如,把fbcdn.net它給Facebook的。把paypal.com,它給了eBay。
我有超過100000個網站,並希望看到相應的公司。現在我正在尋找Jsoup,它是解決方案嗎?所以我可以這樣做:
For(String website : websiteSet){
url = "http://hostadvice.com/tools/whois/#" + website
Document doc = Jsoup.connect(url).get();
String company = doc.getHost();
Map.put(website, company);
}
任何建議?因爲我聽說被抓取的網站可能會阻止我的請求,因爲它會在幾分鐘內發送太多的請求?
首先您不能使用GET,因爲請求必須以POST方式發送。其次,我認爲大規模的自動抓取違反了他們的「服務條款」。 – SubOptimal 2015-03-25 10:21:42
爲什麼不爲此使用[API](http://stackoverflow.com/questions/36817/who-provides-a-whois-api)? – JonasCz 2015-03-30 11:42:17