我正在嘗試製作基本的網絡爬蟲。我的互聯網是通過代理連接。所以我使用了給定的解決方案here。但仍然在運行代碼時出現錯誤。 我的代碼是:緩存訪問被拒絕。請求模塊中需要身份驗證
#!/usr/bin/python3.4
import requests
from bs4 import BeautifulSoup
import urllib.request as req
proxies = {
"http": r"http://usr:[email protected]:3128",
"https": r"http://usr:[email protected]:3128",
}
url = input("Ask user for something")
def santabanta(max_pages,url):
page = 1
while (page <= max_pages):
source_code = requests.get(url,proxies=proxies)
plain_text = source_code.text
print (plain_text)
soup = BeautifulSoup(plain_text,"lxml")
for link in soup.findAll('a'):
href = link.get('href')
print(href)
page = page + 1
santabanta(1,url)
但是,儘管在Ubuntu 14.04在終端中運行我收到以下錯誤:http://www.santabanta.com/wallpapers/gauhar-khan/:
是試圖獲取URL遇到以下錯誤?
緩存訪問被拒絕。
對不起,你目前被允許請求http://www.santabanta.com/wallpapers/gauhar-khan/?從這個緩存直到你已經認證你自己。
發表我的網址是:http://www.santabanta.com/wallpapers/gauhar-khan/
請幫我