我正在嘗試爲Web服務器上的某些文件獲取準確的下載編號。我看用戶代理,有些很明顯是殭屍程序或網絡爬蟲,但很多人對於很多我不確定,他們可能或可能不是網絡爬蟲,他們造成許多下載,所以知道這一點很重要。是否有已知的網絡爬蟲列表?
是否有某處有知識的網絡爬蟲列表與用戶代理,IP,行爲等一些文檔?
我對谷歌,雅虎或微軟等官方用戶不感興趣。這些人一般都很好,並且自我認定。
我正在嘗試爲Web服務器上的某些文件獲取準確的下載編號。我看用戶代理,有些很明顯是殭屍程序或網絡爬蟲,但很多人對於很多我不確定,他們可能或可能不是網絡爬蟲,他們造成許多下載,所以知道這一點很重要。是否有已知的網絡爬蟲列表?
是否有某處有知識的網絡爬蟲列表與用戶代理,IP,行爲等一些文檔?
我對谷歌,雅虎或微軟等官方用戶不感興趣。這些人一般都很好,並且自我認定。
我使用http://www.user-agents.org/通常作爲參考,希望這可以幫助你。
您也可以嘗試http://www.robotstxt.org/db.html或http://www.botsvsbrowsers.com。
http://www.robotstxt.org/db.html是一個很好的開始。如果您也需要這種飼料,他們還有一個可自動生飼料。 http://www.botsvsbrowsers.com/也有幫助。
不幸的是,我們發現機器人活動太多,而且各種各樣,以便能夠精確地過濾它。如果你想要準確的下載次數,你最好的選擇是要求javascript來觸發下載。這基本上是唯一能夠可靠地過濾機器人的東西。這也是爲什麼現在所有網站流量分析引擎都是基於javascript的。
我在https://github.com/monperrus/crawler-user-agents/上維護着一個履帶的用戶代理模式列表。
它是協作式的,你可以通過拉請求來做出貢獻。
我們遇到的問題是,我們有許多有效的下載程序不能運行JavaScript,比如iTunes或任何其他podcatcher。 – Pablo 2009-11-14 07:57:43
不幸的是,只要高度準確的下載次數,你真的不幸運。我可以推薦的最佳選擇是查看三個數字:總下載量(不過濾),排除殭屍程序的過濾器(黑名單過濾)以及包含已知好的過濾器(白名單過濾)。這至少會給你一些東西來看待趨勢和粗糙的球場估計。 – jwanagel 2009-11-14 09:01:23