2014-11-05 208 views
-2

最近圍繞這個問題問了幾個問題,但還沒有真正找到我要找的。硒jSoup從Javascript獲取數據網頁

我想從http://www.futbol24.com/Live/?__igp=1&LiveDate=20141106打印出所有的比賽來打印出比賽的時間,主隊和客隊。我知道內容是在頁面加載後加載的。

我被告知使用Selenium,然後在結果上使用jSoup來獲取我想要的數據。有人有教程或一些示例代碼,他們可以告訴我,如何在上面的網站上做到這一點?

任何示例將不勝感激,謝謝

+0

問題,要求我們建議還是找一本書,工具,軟件庫,教程或其他異地資源是題外話堆棧溢出,因爲他們往往以吸引自發的答案和垃圾郵件。相反,請描述問題以及到目前爲止解決問題所做的工作。 – SiKing 2014-11-05 21:37:20

+0

我沒有要求任何上述......我要求提供一個我已經提到的特定場景的例子嗎? – 2014-11-06 10:41:16

+0

我只研究過,沒有寫任何代碼。似乎無法找到我需要的方法 - 所以想知道是否有人做過類似的事情...... – 2014-11-07 16:11:38

回答

1

如果你要湊/ datamine別人的網站,這裏有一些注意事項:從網站的所有者

  1. 獲得授權。如果你不這樣做,你會在最好的情況下剝奪所有者並被列入黑名單,或者在最壞的情況下被起訴。
  2. 找出網站是否暴露了。這通常是刮取網站的更好方式。
  3. 更適合於此任務的研究工具/庫。一些包括,.....根據您的舒適性/知識水平,你可能需要研究的基本技術:,.....
  4. 是一個功能測試圖書館的瀏覽器應用程序,這使得它窮人選擇此任務。

PS:我完全期待爲此得到downvoted /關閉,因爲討論/意見是off-topic for SO

0

這是爲我工作:

System.setProperty("webdriver.chrome.driver","C:\\tools\\chromedriver_win32\\chromedriver.exe"); 
WebDriver driver = new ChromeDriver(); 
driver.get(url); 
Document doc = Jsoup.parse(driver.getPageSource()); 
// Jsoup code here to parse/scrape data 
driver.close(); 
driver.quit();