如何通過BeautifulSoup循環瀏覽網頁的每個網頁以進行網頁抓取

我正在使用BeautifulSoup從網站中截取工作發佈數據。我的工作代碼能夠滿足我的需求，但它只是刮掉了工作發佈的第一頁。我無法弄清楚如何迭代更新url來刮取每一頁。我對Python很陌生，已經研究了幾個針對類似問題的不同解決方案，但還沒有弄清楚如何將它們應用到我的特定url。我想我需要迭代更新網址，或者點擊下一個按鈕，然後通過每個頁面循環現有的代碼。我欣賞任何解決方案。如何通過BeautifulSoup循環瀏覽網頁的每個網頁以進行網頁抓取

網址：https://jobs.utcaerospacesystems.com/search-jobs

來源

2017-09-20 Christian

打開瀏覽器的開發者控制檯的網絡標籤，你會發現它在後臺發送ajax請求 – Fabricator

首先，BeautifulSoup沒有什麼做歌廳的網頁 - 你的網頁自己，那麼餵它BS4進行處理。

與鏈接頁面的問題在於它是javascript - 它只能在瀏覽器（或任何其他JavaScript VM）中正確呈現。

@Fabricator正處於正確的軌道上 - 您需要觀察開發者控制檯並查看js發送給服務器的ajax請求。在這種情況下，請查看查詢字符串params，其中包含一個名爲CurrentPage的參數 - 這可能是您要關注的一個參數。

來源

2017-09-20 23:15:52

謝謝......我不相信我的編碼知識足夠先進，可以完成這個任務，但嘿！至少我從第一頁上刮掉了我需要的東西（哈哈） – Christian

如何通過BeautifulSoup循環瀏覽網頁的每個網頁以進行網頁抓取

回答

相關問題