2011-11-18 49 views
1

我試圖從多個頁面獲取大量數據,但並不總是一致的。這裏是我與!:從不一致的HTML頁面收集數據 - JSoup

Example HTML

我需要得到類似工作的HTML的例子:團隊|團隊|結果全部變成不同的變量或列表。

我只是需要一些幫助,從哪裏開始,因爲我在多個頁面上使用的主表並不是每個人都一樣。

繼承人我的java至今:

try { 
     Document team_page = Jsoup.connect("http://www.soccerstats.com/team.asp?league=" + league + "&teamid=" + teamNumber).get(); 
     Element home_team = team_page.select("[class=homeTitle]").first(); 
     String teamName = home_team.text(); 
     System.out.println(teamName + "'s Latest Results: "); 

     Elements main_page = team_page.select("[class=stat]"); 
     System.out.println(main_page); 

    } catch (IOException e) { 
     System.out.println("unable to parse content"); 
    } 

我正在從我的節目不同的方法聯賽和teamid。

謝謝!

回答

0

是的。這是網頁抓取問題之一。

您必須找出一個或多個啓發式方法,它將提取您需要訪問的所有頁面所需的信息。沒有魔力。只是努力工作。 (而且你必須全部做一遍,如果該網站改變其頁面佈局。)


一個更好的想法是要求使用該網站或網站的RESTful API中的信息作爲XML或JSON .. 。假設他們存在並且對你有用。

(如果你繼續與網絡刮的方法,檢查該網站的服務條款,以確保您的活動是可以接受的)對HTML

+0

更新,這是所有我需要從提取:HTTP :?//infohound.net/tidy/tidy.pl _function =下載及文件= t28455_844200.html.tdy&_display =直列 –