我剛剛對搜索引擎的工作方式感興趣,並且發現他們使用「機器人」或「網絡爬蟲」。我立即開始想知道這些事情是如何工作的,我想創造一個!所以,首先:你如何製作一個從服務器請求頁面的程序?如果你在JavaScript中給了我一個簡單的例子(我使用Node將它作爲正常的腳本語言運行),那將會非常棒。接下來,有沒有讓我解釋HTML的Node模塊?爲我創建一個DOM,以便我可以循環所有鏈接等等?糾正我,如果我錯了,但我想它是這樣做的... C++,C或Python中的任何示例也受到熱烈歡迎,但我更喜歡JS或Python,因爲我更熟悉高級腳本語言。如何使用Node.js創建Web爬蟲?
4
A
回答
3
- 獲取HTTP網頁:node http.get(例如有)
- DOM文檔:jsdom(也包括示例)
相關問題
- 1. 如何在ASP.NET中創建Web爬蟲?
- 2. Java Web爬蟲庫
- 3. C#web和ftp爬蟲庫
- 4. Web爬蟲的Rx框架
- 5. c#基於web的爬蟲
- 6. Rails是否爲Web爬蟲和殭屍程序創建會話?
- 7. 如何在Web爬蟲中使用Message Queue?
- 8. 如何在java中創建網絡爬蟲?
- 9. 如何在java中創建網絡爬蟲
- 10. 如何使用asp.net mvc3和c#構建網絡爬蟲?
- 11. 如何爲使用oauth2的網站構建Python爬蟲
- 12. 如何使網絡爬蟲更有效?
- 13. 如何爲Web爬蟲禁用Rails會話?
- 14. Python爬蟲 - html.fromstring
- 15. 網絡爬蟲
- 16. Python的爬蟲?
- 17. 爬蟲實例
- 18. Web爬蟲解析PHP/Javascript鏈接?
- 19. 用scrapy創建一個簡單的python爬蟲程序
- 20. 使用Jena Library的Java中的關聯數據的Web爬蟲
- 21. Node.js:創建Web Hook
- 22. Ruby中的Web爬蟲:如何實現最佳性能?
- 23. 如何在Java中設計一個Web爬蟲?
- 24. Perl Web爬蟲如何跟隨ASP.NET回發?
- 25. 如何有效地運行python web爬蟲
- 26. 網絡爬蟲應用
- 27. 開源C++爬蟲?
- 28. C++網絡爬蟲
- 29. 文件爬蟲OSError
- 30. PHP網絡爬蟲
這可能會感興趣.. https://github.com/cgiffard/ node-simplecrawler – Opentuned 2012-12-03 13:52:27