也許這聽起來很天真,但是有一些東西甚至遠遠接近基於ajax的網站的php爬蟲?基於ajax的網站的php爬蟲?
3
A
回答
2
問題是,香草PHP不明白如何解析JavaScript,生成JavaScript環境,並與一切互動。爲了在理論上做到這一點,您必須通過C API擴展PHP並將其與JavaScript庫進行連接。這個規模很大,取決於你有多少資源。
2
不是自動爬蟲,因爲他們需要了解JavaScript代碼並需要知道發生了什麼。
他們可以做的是使用與啓用ajax的腳本相同的調用,因此您可以獲取原始數據。
但是,這意味着您需要對網頁及其調用的網址有非常好的理解,並且相當費力。
所以答案是:不,據我所知,它們不存在。
0
你可以使用phantomjs庫來執行js。
https://github.com/ariya/phantomjs/blob/master/examples/waitfor.js
相關問題
- 1. c#基於web的爬蟲
- 2. PHP網絡爬蟲
- 3. 提前PHP爬蟲,網站與後端
- 4. php爬蟲(抓取單個網站)
- 5. python網站爬蟲(多個網站)
- 6. PHP與Python對於網絡爬蟲
- 7. 單頁網頁爬蟲PHP
- 8. 使用Ajax/JavaScript的網頁爬蟲
- 9. 讓PHP網絡爬蟲尊重任何網站的robots.txt文件
- 10. 。基於網絡的網絡爬蟲示例
- 11. 網絡爬蟲
- 12. 網絡爬蟲抓取基於AJAX的鏈接沒有瀏覽器
- 13. 錯誤PHP網站爬蟲類使用簡單的HTML Dom
- 14. 反向鏈接報告網站爬蟲?
- 15. 保護爬蟲網站內容
- 16. 運行一個網站爬蟲
- 17. 爬蟲/蜘蛛檢測新網站
- 18. 基於Ajax的OpenGraph網站
- 19. 抓取基於鏈接的網頁爬蟲/蜘蛛鏈接
- 20. C++網絡爬蟲
- 21. Python網絡爬蟲
- 22. java網絡爬蟲
- 23. 網絡爬蟲類
- 24. 網絡爬蟲的功能
- 25. 網絡爬蟲的Java
- 26. 簡單的網絡爬蟲
- 27. Python中的網絡爬蟲
- 28. php爬蟲檢測
- 29. 網絡爬蟲在哪裏獲取他們的網站列表進行爬網?
- 30. 網站爬蟲的大網站抓取網站狀態,標題和h1
這不是PHP的,所以我不提供它作爲一個答案,但在的HtmlUnit Java是完全腳本模擬瀏覽器組件,完全與JS的支持 - 可作爲一個履帶式了。 – Piskvor 2011-05-20 11:02:26