Jsoup不解析整個html文檔

我試圖從使用Jsoup的網站獲取一大堆鏈接。我的計劃是從URL中獲取整個html並在稍後提取鏈接。但是隻有整個html代碼的一部分被提取。Jsoup不解析整個html文檔

public static void main(String[] args) {  
    System.out.println("parsing test"); 

    try { 

     Document doc = Jsoup.connect("http://mangafox.com/manga").get(); 
     System.out.print(doc); 

    } catch (Exception e) {} 

}

當我比較打印輸出到瀏覽器的原始HTML代碼，好像它在中間某個地方在字母m和結束不久，周圍的字母O後開始。

來源

2013-07-15 user2498337

這是因爲System.out.print的字符數限制（至少在eclipse中）。 Html頁面大於該限制，這就是爲什麼你不能在控制檯中看到整個文檔。

可以增加控制檯緩衝區大小like it describes here.

或打印html到文件是這樣的：

public static void main(String[] args) {  
    try { 
     Document doc = Jsoup.connect("http://mangafox.com/manga").get(); 
     //System.out.print(doc); 

     //write to document 
     PrintWriter out = new PrintWriter("output.txt"); 
     out.print(doc.toString()); 
     out.close(); 
    } catch (Exception e) {} 

}

來源

2013-07-17 10:23:14

好吧，現在開始打印更多，但原始html代碼中仍然缺少一大部分。 – user2498337

如果任何人在這裏結束了......通過

Document doc = Jsoup.connect(url) 
    .header("Accept-Encoding", "gzip, deflate") 
    .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0") 
    .maxBodySize(0) 
    .timeout(600000) 
    .get();

- http://jmchung.github.io/blog/2013/10/25/how-to-solve-jsoup-does-not-get-complete-html-document/

來源

2015-05-26 14:38:37

Jsoup不解析整個html文檔

回答

相關問題