我正在研究一個ROR應用程序,我需要實現一個抓取其他網站並將數據存儲在我的數據庫中的抓取工具。例如,假設我想抓取http://www.snapdeal.com中的所有交易並將它們存儲到我的數據庫中。如何使用爬蟲實現這一點?如何在ruby中編寫爬蟲?
回答
有幾個選項取決於您的用例。
- Nokogiri。 Here是RailsCast,可以幫助你入門。
- Mechanize建在Nokogiri之上。請參閱Mechanize RailsCast。
- Screen Screen with ScrAPI and ScrAPI RailsCast。
- Hpricot。
我已經使用Nokogiri和機械化的組合爲我的一些項目,我認爲他們是不錯的選擇。
你想看看mechanize。另外從你提到的你可能根本不需要鐵軌。
他可能需要網絡服務器來運行它,我認爲Rails將會拯救。當然,還有其他的Web服務器,但Rails很簡單。 – 2012-02-21 07:50:44
@bhushan,從他提到的沒有,沒有理由認爲鐵路將是有用的。 – pguardiario 2012-02-21 08:11:06
我知道這個腳本是獨立的,但是如何將它們與App結合? – 2012-02-21 08:14:28
- 1. 如何在javascript中編寫此爬蟲程序?
- 2. 編寫網絡爬蟲模板
- 3. 用Java編寫網絡爬蟲
- 4. 如何重寫以下rx-java爬蟲
- 5. 如何編寫爬蟲從instagram抓取數據?
- 6. 如何爲桌面編寫爬蟲程序
- 7. 是否有可能在JavaScript中編寫網絡爬蟲?
- 8. 如何在ASP.NET中創建Web爬蟲?
- 9. Ruby中的Web爬蟲:如何實現最佳性能?
- 10. Python爬蟲 - html.fromstring
- 11. 網絡爬蟲
- 12. Python的爬蟲?
- 13. 爬蟲實例
- 14. 如何在asp.net後端運行爬蟲?
- 15. 用飛鏢寫的網頁爬蟲
- 16. 使用cron編寫一個PHP網絡爬蟲
- 17. 爲高效方式編寫網絡爬蟲的建議
- 18. Python中的網絡爬蟲
- 19. python中的Facebook爬蟲
- 20. 開源C++爬蟲?
- 21. C++網絡爬蟲
- 22. Java Web爬蟲庫
- 23. 文件爬蟲OSError
- 24. PHP網絡爬蟲
- 25. Python網絡爬蟲
- 26. java網絡爬蟲
- 27. 爬蟲vs刮板
- 28. php爬蟲檢測
- 29. 重定向爬蟲
- 30. 網絡爬蟲類
就像任何其他語言一樣。獲取一些HTML,解析它,跟隨鏈接,將所有內容存儲在數據庫中。 – 2012-02-21 05:19:48
您可以嘗試[先鋒寶石](https://github.com/fl00r/pioneer),但它仍在開發中 – fl00r 2012-03-05 21:40:18