是否有網站將其標識爲正在訪問它的腳本,儘管更改了我假設的User-Agent頭部並且出現錯誤。網站抓取,機器人身份識別
import urllib,urllib2
req_headers = {'User-Agent':'Mozilla/5.0'}
req = urllib2.Request(url,headers = req_headers)
html = req.open(url)
如果是,那該怎麼辦?
是否有網站將其標識爲正在訪問它的腳本,儘管更改了我假設的User-Agent頭部並且出現錯誤。網站抓取,機器人身份識別
import urllib,urllib2
req_headers = {'User-Agent':'Mozilla/5.0'}
req = urllib2.Request(url,headers = req_headers)
html = req.open(url)
如果是,那該怎麼辦?
首先,您的用戶代理程序相當不完整,很容易檢測爲假。
我在我對3210的回答中描述了一些機器人檢測技術。