-1
A
回答
0
哇!你很少看到一個這樣的網站難以掠奪, 你有沒有考慮加入聯盟計劃? 它可能會打開其他渠道或數據源...
正面攻擊要比模仿一個簡單的形式GET,餅乾也涉及以及(12!他們)加上它爬行與AJAX和這正在動態改變cookies。 還有一個不尋常的分析量,因此可能是從服務器發送的每個頁面都預計會從瀏覽器「回家」,或者服務器知道有什麼不對勁。
在一個'正常'網站上,搜索表單會將您轉儲到結果頁面上,這裏它使用中間着陸頁作爲網守,首先檢查cookie,然後使用AJAX重寫其中的一個或多個cookie。在檢查之後,它會自動重定向到結果頁面,該頁面通過基於新cookie值的ajax再次獲取結果。 從結果頁面看,結果頁面在最終調用數據之前會重複此過程。
這是一個嚴重過於簡單的描述順便說一句,足以說一小時後,周圍找不到一個與cURL的方式。看起來像http://seleniumhq.org/或像Visual Web Ripper的軟件包& Djuggler(如果你仍然可以找到免費的個人版),也許可能是像Greasemonkey這樣的Firefox插件可以做到這一點。
+0
thx skizz我會研究它 – mishi 2012-07-23 04:17:38
相關問題
- 1. php抓取頁面使用http post
- 2. 抓取頁面更快[PHP]
- 3. php頁面抓取任務
- 4. Facebook頁面抓取
- 5. 抓取html頁面
- 6. HTML頁面抓取
- 7. 抓取頁面塊
- 8. php抓取 - 啓用javascript
- 9. Python抓取頁面源PHP中它
- 10. 抓取Google翻譯的頁面? (PHP)
- 11. PHP網頁抓取
- 12. 如何使用Python抓取Twitter頁面?
- 13. 使用ColdFusion進行頁面抓取
- 14. 如何使用ajax抓取頁面?
- 15. 使用jQuery從頁面抓取圖像
- 16. 使用動態頁面抓取網站
- 17. 使用crawler4j抓取https頁面
- 18. 使用PHP,cURL,simplehtmldom抓取「下一頁」
- 19. 使用javascript sdk抓取公共頁面feed
- 20. 使用Javascript抓取遠程頁面上的元素
- 21. 從活動中抓取JSON並在php頁面上使用它
- 22. JavaScript網頁的Python抓取失敗僅適用於https頁面
- 23. C#網頁抓取的Javascript
- 24. backbone.js抓取頁面一次
- 25. Wordpress抓取頁面屬性
- 26. 可抓取的ajax頁面
- 27. 抓取Facebook粉絲頁面
- 28. 抓取頁面更新後
- 29. 使用PHP讀取頁面
- 30. php從javascript抓取數據
我知道這個網站使用post方法,我把這些變量傳遞給CURL但沒有成功。我想取消尋找酒店的頁面...... – mishi 2012-07-21 07:01:54
以及我必須糾正自己的網站使用get方法,但一些領域被隱藏,所以我嘗試通過捲曲傳遞他們...........其他方法我已經嘗試過使用像用戶代理這樣的附加組件,但是對於這種情況,我並不想通過任何方式訪問所需的頁面... – mishi 2012-07-21 07:17:16
$ action =「http://www.hotwire.com/」; $ method =「GET」; $ ref =「http://www.hotwire.com/index.jsp」; $ data_array ['inputId'] =「index」; $ data_array ['rs'] =「0」; $ response = http($ target = $ action,$ ref,$ method,$ data_array,EXCL_HEAD); print_r($ response); – mishi 2012-07-21 09:31:08