我一直在試圖抓取並最終從hostels.com解析一些數據(特別是可用性和價格),例如http://www.hostels.com/hosteldetails.php/HostelNumber.11890。問題是,一旦你選擇了夜晚的數量並選擇「現在預訂」,沒有任何東西通過URL字符串傳遞(它全部通過Ajax完成,我相信),我不能直接進入特定的日期或時間範圍。屏幕抓取/解析幫助
我試圖瀏覽器仿真器,如硒,IRobotSoft和FakeApp,雖然我沒有得到硒和假做太多的工作獲取完整的源代碼的,這是醜陋的,仍然有刮(與其他解析時繁瑣軟件)每天多個頁面。
我也試過HTML DOM解析器,PHP腳本Web瀏覽器,HTMLUnit,cScrape.php,Crowbar。要麼他們無法處理Ajax,要麼我沒有運氣讓他們跑步。
理想情況下,我希望能夠從服務器運行一些儘可能少的依賴關係,但此時我只想讓它運行。
現在花了很多小時試圖讓這個工作。我仍然覺得我不確定從哪裏開始。有人能指出我正確的方向嗎?我應該回去並花更多時間用HTMLUnit嗎?對於像這樣的網站,最佳做法是什麼?
感謝
哇,jQuery是偉大的IL給這一個鏡頭,謝謝。 – Alex 2011-05-28 16:59:01