最近我一直在玩Java Java Jsoup庫,試圖更好地理解網頁抓取(將數據從網站中拉出)。但看起來,我設法整理的代碼只是部分時間的功能。我的代碼是問題,還是有可能某些網站有措施阻止網頁抓取?與Jsoup的網頁刮擦只能運行一半的時間
這裏是做所有的「魔力」類:
import java.io.IOException;
import org.jsoup.*;
import org.jsoup.nodes.Document;
public class HTMLParser {
private Document d;
private String url;
private String content;
public HTMLParser(String url){
this.url = url;
connect();
parse();
display();
}
private void connect(){
try{
d = Jsoup.connect(url).get();
}catch(IOException e){}
}
private void parse(){
content = d.body().text();
}
private void display(){
System.out.println(content);
}
}
*或者有可能某些網站有措施阻止網絡抓取?*是的。閱讀他們的「robots.txt」政策。 – BalusC
http://www.robotstxt.org/robotstxt.html – Greg