我已經做過網絡抓取,但它從來沒有這麼複雜。我想從學校網站上獲取課程信息。然而,所有的課程信息都顯示在網絡刮板的噩夢中。如何抓取網站內容(* COMPLEX * iframe,javascript提交)
首先,當你點擊「Schedule of Classes」網址時,它會首先引導你瀏覽其他幾個頁面(我相信設置cookie和檢查其他廢話)。
然後,它終於加載了一個頁面,該頁面顯然只在從機構的網頁(如arizona.edu)加載時才喜歡加載。
從那裏表單提交必須通過實際上沒有重新加載頁面的按鈕,但只提交一個AJAX查詢,我認爲它只是操縱iframe。
這個查詢對我來說很難複製。我一直使用PHP和curl模擬瀏覽器訪問初始頁面,收集適當的cookie等。但我認爲我的curl函數發送的頭文件有問題,因爲它在初始「搜索表單」加載後從不讓我執行任何類型的查詢。
任何幫助將是真棒......
http://www.arizona.edu/students/registering-classes - >
或者只是在這裏 「課程表」: http://schedule.arizona.edu/
網站刮氣味。如果他們沒有API來提供他們的數據,他們不想被刮掉 –
@ Col.Shrapnel那麼我需要這些數據。我懷疑他們設置這個系統以避免被刮傷。這是他們實施管理整個學術界的一個更大系統的一部分。顧問們使用這個系統來批准學生上課等,我不是在試圖阻止顧問刮蹭。這是他們選擇使用的預製系統,這是我見過的最笨重的東西。 我計劃開發一個應用程序來幫助學生,如果應用程序有任何動力,我會直接接近學校,並說嘿...給我API,所以我可以輕鬆地做到這一點。 – Rawr