2014-04-02 59 views
0

我想通過網絡抓取從這個網站獲取數據。 http://www.upmandiparishad.in/commodityWiseAll.aspx enter image description here使用JSoup的數據刮擦?

我以前用過JSoup更多的靜態HTML網站,但因爲之前,我在網站上的HTML表格必須點擊一個按鈕,我不知道是否有可能這個人是我很難使用JSoup來操作按鈕。

點擊這個按鈕後,我得到一個HTML表格。

那麼我該如何做到這一點?

在此先感謝

+0

可能出現[從網站刮取數據?](http://stackoverflow.com/questions/22803854/scrape-data-from-website) – rene

回答

0

看來你已經使用JSoup作爲HTML解析器但不能作爲請求/響應處理。 我給你兩個選擇:

選項1:

  • 圖出來,當你按下該按鈕發生了什麼。一個按鈕通常只是一個POST請求,所以獲取該POST請求的信息(谷歌Chrome開發工具是你的朋友)。
  • 模擬在POST使用JSoup Connect interface(檢查POST方法)
  • 解析與JSoup的HTML代碼,你已經知道

選項2:

  • 用戶辦理一個合適的工具一個瀏覽器實例(例如Selenium Webdriver)並在網頁中執行任何你想要的操作(填寫表單,提交....)。
  • 一旦你在你想要的網頁,得到html代碼,並與JSoup一起使用它來提取你的信息。

祝你好運!

0

假設頁面有很多輸入標籤,就像文本輸入和密碼一樣,我猜你知道這一點。現在你必須傳遞數據(「name here」,「value here」)。post()將會操縱一個按鈕。

例如:假設這是HTML代碼<INPUT TYPE=SUBMIT NAME="submit" VALUE="SUBMIT" ALIGN = "center">

那麼這將是您的自動化指揮!

Jsoup.connect("<url here>").userAgent("Chrome").data("submit","SUBMIT").post();