2013-07-15 76 views
0

我試圖從使用Jsoup的網站獲取一大堆鏈接。我的計劃是從URL中獲取整個html並在稍後提取鏈接。但是隻有整個html代碼的一部分被提取。Jsoup不解析整個html文檔

public static void main(String[] args) {  
    System.out.println("parsing test"); 

    try { 

     Document doc = Jsoup.connect("http://mangafox.com/manga").get(); 
     System.out.print(doc); 

    } catch (Exception e) {} 

} 

當我比較打印輸出到瀏覽器的原始HTML代碼,好像它在中間某個地方在字母m和結束不久,周圍的字母O後開始。

回答

0

這是因爲System.out.print的字符數限制(至少在eclipse中)。 Html頁面大於該限制,這就是爲什麼你不能在控制檯中看到整個文檔。

可以增加控制檯緩衝區大小like it describes here.

或打印html到文件是這樣的:

public static void main(String[] args) {  
    try { 
     Document doc = Jsoup.connect("http://mangafox.com/manga").get(); 
     //System.out.print(doc); 

     //write to document 
     PrintWriter out = new PrintWriter("output.txt"); 
     out.print(doc.toString()); 
     out.close(); 
    } catch (Exception e) {} 

} 
+0

好吧,現在開始打印更多,但原始html代碼中仍然缺少一大部分。 – user2498337