我正在創建一個簡單的履帶式裝載機,它將從預先定義的網站列表中刪除。我的簡單問題:是否有任何爬行器應專門使用的HTTP標頭?什麼被認爲是必需的,並且需要定義?履帶式標頭
Q
履帶式標頭
1
A
回答
1
您至少應指定一個自定義用戶代理(如StormCrawler所示),以便您正在爬網的網站的網站管理員可以看到您是機器人並在需要時與您聯繫。
更重要的是,您的抓取工具應該遵循robots.txt指令,遏制對網站的請求頻率等......這導致我出現以下問題:爲什麼不重新使用和定製像StormCrawler這樣的現有開源抓取工具,Nutch還是Scrapy,而不是重新發明輪子?
1
很高興告訴你是誰和你的意圖,以及如何抓住你。我運行一個網站,並在看的access.log爲Apaceh,下面的信息實際上有一個任務(如一些在StromCrawler代碼列出的那些的)記住:
- 代理名稱 - 只是品牌名稱的爬行器
- 代理軟件的版本 - 如果代理的早期版本出現問題,很高興看到它是演變版本
- 有關代理的信息的URL - 指向有關搜尋器的信息頁的鏈接。更多信息的目的,技術buildup等也是一個地方接觸到bot背後的人。
如果您退房Request fields,您會發現兩個興趣點:User-Agent
和from
。第二個是電子郵件地址,但最後我檢查了它沒有出現在Apache2的access.log中。用戶代理automated agents應該包含有關代理的更多信息的頁面的名稱,版本和URL。在代理商名稱中使用「bot」這個詞也很常見。
相關問題
- 1. Google Plus履帶式
- 2. 不能履帶式https://www.autorentals.com
- 3. 履帶式服務器端
- 4. GOUTTE履帶式轉換JSON
- 5. Python的履帶 - AttributeError的:履帶式實例沒有屬性 'URL'
- 6. 履帶與MozMill
- 7. 解析履帶
- 8. 誤差scrapy履帶
- 9. 履帶腳本php
- 10. 安裝NPM履帶
- 11. RSS履帶式Feed閱讀器
- 12. Scrapy履帶式功能不執行
- 13. 履帶式/鏟運機的數據庫?
- 14. python合作伙伴的履帶式facebook
- 15. scrapy履帶式假冒地理位置
- 16. 寫作履帶式的屏幕抓取
- 17. Xapian的履帶/解析器
- 18. 乳寧一Scrapy履帶
- 19. twitter友誼的履帶
- 20. 轉換履帶的網址
- 21. 腓履帶從2個HTMLS
- 22. PHP RSS飼料履帶
- 23. 錯誤履帶JMeter的
- 24. Twitter的履帶趨勢
- 25. Scrapy履帶輸出到Excel
- 26. 在appengine上的履帶
- 27. 履帶在C#或VB.net
- 28. Typo3搜索履帶配置
- 29. 履帶和「隱藏」鏈接
- 30. scrapyrt不是從scrapy履帶
我只使用Scrapy,但需要很長時間才能設置。在node.js中使用請求和cheerio做東西看起來既快速又容易定製,以適應手頭的用例。 –