0
使用python腳本從網站上抓取多個文件。使用原始文件名的Python機械化下載文件
下載HTML表單是這樣的:
<span>
<a class="tooltip" href="download.php?action=download&id=xxx&authkey=yyy&pass=zzz" title="Download">DL</a>
</span>
我在想什麼的是:
f1 = open('scraping.log', 'a')
page = br.open(url)
html = page.read()
soup = BeautifulSoup(html)
for a in soup.select('a[href^="download.php?action=download"]'):
link = a.attrs.get('href')
print >>f1, link
br.retrieve(url+link, destination)
但是,對於檢索我必須說明了輸出文件名。我想獲取原始文件名,而不是將其設置爲隨機名稱。有沒有辦法做到這一點? 此外,由於我想添加此腳本在crontab中頻繁運行,是否有一種方法可以讓我們設置檢查scraping.log並跳過之前已下載的腳本?
哪個網站是你刮?你可以從中得到文件名。 –
對不起,這是一個私人網站。對於文件名,有沒有辦法從上面的下載鏈接獲取文件名? –
讓我知道我的答案是否適合你,如果確實如此,請不要忘記接受它。謝謝! –