2012-07-21 68 views
-1

我想刮這個鏈接,但無法訪問它。使用php抓取javascript頁面

link

我試圖使用捲曲,但沒有成功。

+0

我知道這個網站使用post方法,我把這些變量傳遞給CURL但沒有成功。我想取消尋找酒店的頁面...... – mishi 2012-07-21 07:01:54

+0

以及我必須糾正自己的網站使用get方法,但一些領域被隱藏,所以我嘗試通過捲曲傳遞他們...........其他方法我已經嘗試過使用像用戶代理這樣的附加組件,但是對於這種情況,我並不想通過任何方式訪問所需的頁面... – mishi 2012-07-21 07:17:16

+0

$ action =「http://www.hotwire.com/」; $ method =「GET」; $ ref =「http://www.hotwire.com/index.jsp」; $ data_array ['inputId'] =「index」; $ data_array ['rs'] =「0」; $ response = http($ target = $ action,$ ref,$ method,$ data_array,EXCL_HEAD); print_r($ response); – mishi 2012-07-21 09:31:08

回答

0

哇!你很少看到一個這樣的網站難以掠奪, 你有沒有考慮加入聯盟計劃? 它可能會打開其他渠道或數據源...

正面攻擊要比模仿一個簡單的形式GET,餅乾也涉及以及(12!他們)加上它爬行與AJAX和這正在動態改變cookies。 還有一個不尋常的分析量,因此可能是從服務器發送的每個頁面都預計會從瀏覽器「回家」,或者服務器知道有什麼不對勁。

在一個'正常'網站上,搜索表單會將您轉儲到結果頁面上,這裏它使用中間着陸頁作爲網守,首先檢查cookie,然後使用AJAX重寫其中的一個或多個cookie。在檢查之後,它會自動重定向到結果頁面,該頁面通過基於新cookie值的ajax再次獲取結果。 從結果頁面看,結果頁面在最終調用數據之前會重複此過程。

這是一個嚴重過於簡單的描述順便說一句,足以說一小時後,周圍找不到一個與cURL的方式。看起來像http://seleniumhq.org/或像Visual Web Ripper的軟件包& Djuggler(如果你仍然可以找到免費的個人版),也許可能是像Greasemonkey這樣的Firefox插件可以做到這一點。

+0

thx skizz我會研究它 – mishi 2012-07-23 04:17:38