實現此爬蟲的難度
回答
可你只需要使用YP Search API?訪問是免費的,只需一分鐘即可設置開發者帳戶。
有了正確的模塊和庫,它非常適合!這取決於你的工具,Perl或者Python,你會全部設置好。如果你試圖用C++來做到這一點,那麼你可能會有更多的痛苦。
如果您提供有關您的情況(語言框架約束)的更多信息,我可以更具體。
此外,還有一些法律問題需要考慮與刮,我不確定機器人黃頁政策。在繼續之前閱讀他們的robots.txt。 http://www.robotstxt.org/應該給你一些關於學習這些東西的初始信息。
最好的辦法是既安全和法律是隻使用API,http://developer.yp.com/
我不知道這個工作最好的工具是什麼。此外,我需要提供哪些信息才能知道哪些是正確的模塊和庫?我如何找到他們的robots.txt? – stanigator
你目前知道哪些語言? – jozefg
我知道一點Python。 – stanigator
使用Perl和WWW :: Robot等模塊可能不會那麼難。我沒有嘗試,但由於您瞭解Python,Scrapy可能會提供幫助。 http://scrapy.org
記住不要在抓取網站時敲擊網站,因爲您的IP可能被禁止。
- 1. 爬蟲實例
- 2. Python的爬蟲?
- 3. 如何配置此Java爬蟲
- 4. Python爬蟲 - html.fromstring
- 5. 網絡爬蟲
- 6. Ruby中的Web爬蟲:如何實現最佳性能?
- 7. Python網絡爬蟲,深度問題
- 8. 網絡爬蟲出現Implode錯誤
- 9. 做爬蟲解碼html實體?
- 10. 開源C++爬蟲?
- 11. C++網絡爬蟲
- 12. Java Web爬蟲庫
- 13. 文件爬蟲OSError
- 14. PHP網絡爬蟲
- 15. Python網絡爬蟲
- 16. java網絡爬蟲
- 17. 爬蟲vs刮板
- 18. php爬蟲檢測
- 19. 重定向爬蟲
- 20. 網絡爬蟲類
- 21. Gevent鏈接爬蟲
- 22. 網絡爬蟲的功能
- 23. 網絡爬蟲的Java
- 24. 簡單的網絡爬蟲
- 25. Python中的網絡爬蟲
- 26. Python爬蟲的問題
- 27. Web爬蟲的Rx框架
- 28. c#基於web的爬蟲
- 29. python中的Facebook爬蟲
- 30. 解決此網絡爬蟲任務的最簡單方法?
這是一個有點偏離主題,但你記得他們批准你的時間需要多長時間API訪問的開發者帳戶? –
@pXdty通過我的電子郵件搜索後,它看起來像在註冊幾分鐘內自動批准。 –
謝謝你。只是想回復我的個人結果。他們似乎只在正常工作時間回覆,所以他們在第二天回覆我。 –