與Jsoup的網頁刮擦只能運行一半的時間

最近我一直在玩Java Java Jsoup庫，試圖更好地理解網頁抓取（將數據從網站中拉出）。但看起來，我設法整理的代碼只是部分時間的功能。我的代碼是問題，還是有可能某些網站有措施阻止網頁抓取？與Jsoup的網頁刮擦只能運行一半的時間

這裏是做所有的「魔力」類：

import java.io.IOException; 
import org.jsoup.*; 
import org.jsoup.nodes.Document; 




public class HTMLParser { 

private Document d; 
private String url; 
private String content; 



    public HTMLParser(String url){ 
    this.url = url; 
    connect(); 
    parse(); 
    display(); 

    } 


    private void connect(){ 
     try{ 
     d = Jsoup.connect(url).get(); 
     }catch(IOException e){} 
    } 

    private void parse(){ 
     content = d.body().text(); 

    } 

    private void display(){ 
     System.out.println(content); 

    } 

}

來源

2011-08-11 MeMory LEAk99

*或者有可能某些網站有措施阻止網絡抓取？*是的。閱讀他們的「robots.txt」政策。 – BalusC

http://www.robotstxt.org/robotstxt.html – Greg