2012-01-19 96 views
0

我有一組1000個頁面(鏈接),我通過向Google發送查詢來獲取。我正在使用JSoup。我想擺脫圖像,鏈接,菜單,視頻等,並只採取從每一頁的主要文章。從JSoup獲取多個頁面中的文本

我的問題是每個頁面都有不同的DOM樹,所以我不能在每個頁面上使用相同的命令!你知道有什麼辦法可以同時做1000頁嗎?我想我必須使用正則表達式。類似的東西也許

textdoc.body().select("[id*=main]").text();//get id that contains the word main 
textdoc.body().select("[class*=main]").text();//get class that contains the word main 
textdoc.body().select("[id*=content]").text();//get id that contains the word content 

但我覺得我總是會懷念這個東西。任何更好的想法?

回答

0
Element main = doc.select("div.main").first(); 
Elements links = main.select("a[href]"); 

所有不同的頁面都有主文章的主類?

+0

這是問題...我猜不是... – argi

+0

你有什麼類似的每一頁? – JackTurky

+0

我不能檢查1000頁:p:p – argi