從不一致的HTML頁面收集數據 - JSoup

我試圖從多個頁面獲取大量數據，但並不總是一致的。這裏是我與!:從不一致的HTML頁面收集數據 - JSoup

我需要得到類似工作的HTML的例子：團隊|團隊|結果全部變成不同的變量或列表。

我只是需要一些幫助，從哪裏開始，因爲我在多個頁面上使用的主表並不是每個人都一樣。

繼承人我的java至今：

try { 
     Document team_page = Jsoup.connect("http://www.soccerstats.com/team.asp?league=" + league + "&teamid=" + teamNumber).get(); 
     Element home_team = team_page.select("[class=homeTitle]").first(); 
     String teamName = home_team.text(); 
     System.out.println(teamName + "'s Latest Results: "); 

     Elements main_page = team_page.select("[class=stat]"); 
     System.out.println(main_page); 

    } catch (IOException e) { 
     System.out.println("unable to parse content"); 
    }

我正在從我的節目不同的方法聯賽和teamid。

謝謝！

來源

2011-11-18 Ricardo Rodriguez

是的。這是網頁抓取問題之一。

您必須找出一個或多個啓發式方法，它將提取您需要訪問的所有頁面所需的信息。沒有魔力。只是努力工作。（而且你必須全部做一遍，如果該網站改變其頁面佈局。）

一個更好的想法是要求使用該網站或網站的RESTful API中的信息作爲XML或JSON .. 。假設他們存在並且對你有用。

（如果你繼續與網絡刮的方法，檢查該網站的服務條款，以確保您的活動是可以接受的）對HTML

來源

2011-11-18 13:15:43

更新，這是所有我需要從提取：HTTP ：？//infohound.net/tidy/tidy.pl _function =下載及文件= t28455_844200.html.tdy＆_display =直列 –

從不一致的HTML頁面收集數據 - JSoup

回答

相關問題