2014-02-21 52 views
0

如何提取「閱讀更多」部分的新聞。當我使用jsoup時,它只在「閱讀更多」部分的內容之前提供。我想提取該新聞的全部內容。提取鏈接的子內容

Scanner sc=new Scanner(System.in); 
String code=sc.nextLine(); 
doc = Jsoup.connect("http://ieee-link.org/category/events/" +code+ "/").get(); 
Elements els = doc.select("div.entry"); 
System.out.println(els.text()); 

回答

0

閱讀更多似乎包含一個鏈接。你可以用Jsoup提取鏈接的目標,並得到這個URL,以及:

Elements els = doc.select("div.entry"); 
//inside each els we can find something like: <a class="more-link" href="http://ieee-link.org/renesas/">Read More »</a> 

for (Element el : els){ 
    Element anchor = el.select("a.more-link"); 
    if (anchor != null){ 
    Document moreDoc = Jsoup.connect(anchor.attr("href")).get(); 
    System.out.println(moreDoc); 
    } 
    else{ 
    System.out.println(el); 
    } 
} 

注意,這個代碼寫了我的頭。某些方法名稱可能是錯誤的。拼寫也是有問題的。