這是相當簡單的東西在這裏......所以我目前正在試用python,而我的經驗很少......我想創建一個圖像刮板什麼去頁面下載圖像點擊鏈接(下一頁)並下載其他圖像等(作爲源使用類似於9gag的網站)。 現在我的腳本只能打印圖像的URL和下一個鏈接的URL,所以我無法弄清楚如何讓我的機器人點擊鏈接和下載下一個圖像,並無限地做到這一點(直到條件遇到/停止等)...簡單的Python圖像刮板腳本
PS IM使用beautifulsoup4(我覺得LOL)
由於提前, ZIL
這裏的腳本看起來像現在,我有點幾個腳本組合成一個東西,所以腳本看起來非常潔淨。 ..
import requests
from bs4 import BeautifulSoup
import urllib
def trade_spider(max_pages):
page = 1
while page <= max_pages:
url2 = 'http://linksmiau.net/linksmi_paveiksliukai/rimtas_rudeninis_ispejimas_merginoms/1819/'
url = url2
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "html.parser")
for img in soup.findAll('img', {'class': 'img'}):
temp = img.get('src')
if temp[:1]=="/":
image = "http://linksmiau.net" + temp
else:
image = temp
print(image)
for lnk in soup.findAll('div', {'id': 'arrow_right'}):
nextlink = lnk.get('onclick')
link = nextlink.replace("window.location = '", "")
lastlink = "http://linksmiau.net" + link
page += 1
print(lastlink)
url2 == lastlink
trade_spider(3)
嘿嘿,謝謝對於你的回答,我認爲我可以確定你上面提到的前3分,我確定第四步是這裏的問題...我想我不能自己排除它,或者至少它會花費太多時間...我已經用我當前的腳本更新了原始文章,如果您有時間,您可以告訴我什麼是錯的... –
爲什麼不在下一個鏈接上使用「requests.get(url)」? 如果您只是將while循環之外的第一行移到while循環之外,可能會起作用(現在,while循環的每次迭代都會使您解析相同的URL)。 – DougieHauser