颳去excel網站在過去的幾天中,我試圖取消在表格中有幾個excels和pdfs的以下網站(鏈接粘貼在下面)。我能夠成功完成主頁。總共有59頁,這些excels/pdfs必須報廢。在我看到的大多數網站中,直到現在,網站url中都有一個查詢參數,當您從一個頁面移動到另一個頁面時,該參數會發生變化。在這種情況下,我們有一個_doPostBack函數,可能是因爲它在每個頁面上的URL都保持不變。我查看了多個解決方案和帖子,這些解決方案和帖子建議查看post
調用的參數並使用它們,但我無法理解在post
調用中提供的參數(這是我第一次取消網站)。使用python與_doPostBack鏈接url隱藏
有人可以請建議一些資源,可以幫助我編寫一個代碼,它可以幫助我使用python從一個頁面移動到另一個頁面。具體內容如下:
網站鏈接 - http://accord.fairfactories.org/ffcweb/Web/ManageSuppliers/InspectionReportsEnglish.aspx
我當前的代碼中提取從主頁的CAP Excel工作表(這是工作完美的,僅供參考提供)
from urllib.request import urlopen
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import re
import urllib
Base = "http://accord.fairfactories.org/ffcweb/Web"
html = urlopen("http://accord.fairfactories.org/ffcweb/Web/ManageSuppliers/InspectionReportsEnglish.aspx")
bs = BeautifulSoup(html)
name = bs.findAll("td", {"class":"column_style_right column_style_left"})
i = 1
for link in bs.findAll("a", {"id":re.compile("CAP(?!\w)")}):
if 'href' in link.attrs:
name = str(i)+".xlsx"
a = link.attrs['href']
b = a.strip("..")
c = Base+b
urlretrieve(c, name)
i = i+1
請讓我知道,如果我在提供信息時遺漏了任何東西,請不要評價我 - 我也無法進一步提出任何問題
謝謝噸Padraic。你是明星:) –
@ujjwaldalmia,不用擔心,不客氣。 –
親愛的Padraic當我嘗試執行代碼時,出現以下錯誤。 –