是否有已知的網絡爬蟲列表？

我正在嘗試爲Web服務器上的某些文件獲取準確的下載編號。我看用戶代理，有些很明顯是殭屍程序或網絡爬蟲，但很多人對於很多我不確定，他們可能或可能不是網絡爬蟲，他們造成許多下載，所以知道這一點很重要。是否有已知的網絡爬蟲列表？

是否有某處有知識的網絡爬蟲列表與用戶代理，IP，行爲等一些文檔？

我對谷歌，雅虎或微軟等官方用戶不感興趣。這些人一般都很好，並且自我認定。

2009-11-14 Pablo

我使用http://www.user-agents.org/通常作爲參考，希望這可以幫助你。

2009-11-14 07:37:38

http://www.robotstxt.org/db.html是一個很好的開始。如果您也需要這種飼料，他們還有一個可自動生飼料。 http://www.botsvsbrowsers.com/也有幫助。

2009-11-14 07:36:31

不幸的是，我們發現機器人活動太多，而且各種各樣，以便能夠精確地過濾它。如果你想要準確的下載次數，你最好的選擇是要求javascript來觸發下載。這基本上是唯一能夠可靠地過濾機器人的東西。這也是爲什麼現在所有網站流量分析引擎都是基於javascript的。

2009-11-14 07:45:04 jwanagel

我們遇到的問題是，我們有許多有效的下載程序不能運行JavaScript，比如iTunes或任何其他podcatcher。 – Pablo 2009-11-14 07:57:43

不幸的是，只要高度準確的下載次數，你真的不幸運。我可以推薦的最佳選擇是查看三個數字：總下載量（不過濾），排除殭屍程序的過濾器（黑名單過濾）以及包含已知好的過濾器（白名單過濾）。這至少會給你一些東西來看待趨勢和粗糙的球場估計。 – jwanagel 2009-11-14 09:01:23

我在https://github.com/monperrus/crawler-user-agents/上維護着一個履帶的用戶代理模式列表。

它是協作式的，你可以通過拉請求來做出貢獻。

2015-04-06 12:07:12

回答