2013-05-26 49 views
0

我目前正在研究一個檢查大學課程可用性的程序,但該網站使用JavaScript來顯示課程及其時間。使用Java,我正在研究這些數據並使用它來告訴用戶什麼時候打開了類。從使用javascript的網站上刮取數據

我試過使用硒,但我真的不知道如何使用它非常好。有沒有更簡單的方法來做到這一點?

+0

硒對此非常合適。請更具體的如果你需要幫助,這項任務 – luksch

+0

@luksch對不起,我只是不知道從哪裏開始。我不確定我是否應該通過Selenium在瀏覽器中打開該頁面,或者只是通過數據擦除。我不熟悉整個網站的搜索,所以我爲我的天真道歉。 –

+0

我爲更復雜的抓取工作所做的工作是使用硒導航到問題頁面,執行所有必需的點擊操作,然後將最終頁面保存爲字符串,然後使用JSoup進行處理。這可能在你的情況下是過分的,所以你可以嘗試使用硒選擇器直接刮擦。 – luksch

回答

0

沒有具體很難知道。但我認爲,如果數據不在加載時在頁面中,他們可能會使用AJAX加載它。

正如我所說我可能會假設太多,但你的問題是模糊的,如果他們使用AJAX,檢查他們的電話(並得到一個運氣好的json響應),你的工作將非常容易。

+0

我覺得我對這個項目感到很滿意,但我相信它是AJAX。具體而言,這是源頁面view-source:http://sis.rutgers.edu/soc/#subjects%3Fsemester%3D92013%26campus%3DNB%26level%3DU –

+0

@MikeMelchione打開瀏覽器中的開發人員工具並激活網絡標籤,你將能夠看到所有的AJAX請求和傳遞的參數,你應該能夠逆向工程你需要做的調用。 – chesles