2017-09-20 44 views
0

我正在使用BeautifulSoup從網站中截取工作發佈數據。我的工作代碼能夠滿足我的需求,但它只是刮掉了工作發佈的第一頁。我無法弄清楚如何迭代更新url來刮取每一頁。我對Python很陌生,已經研究了幾個針對類似問題的不同解決方案,但還沒有弄清楚如何將它們應用到我的特定url。我想我需要迭代更新網址,或者點擊下一個按鈕,然後通過每個頁面循環現有的代碼。我欣賞任何解決方案。如何通過BeautifulSoup循環瀏覽網頁的每個網頁以進行網頁抓取

網址:https://jobs.utcaerospacesystems.com/search-jobs

+1

打開瀏覽器的開發者控制檯的網絡標籤,你會發現它在後臺發送ajax請求 – Fabricator

回答

0

首先,BeautifulSoup沒有什麼做歌廳的網頁 - 你的網頁自己,那麼餵它BS4進行處理。

與鏈接頁面的問題在於它是javascript - 它只能在瀏覽器(或任何其他JavaScript VM)中正確呈現。

@Fabricator正處於正確的軌道上 - 您需要觀察開發者控制檯並查看js發送給服務器的ajax請求。在這種情況下,請查看查詢字符串params,其中包含一個名爲CurrentPage的參數 - 這可能是您要關注的一個參數。

+0

謝謝......我不相信我的編碼知識足夠先進,可以完成這個任務,但嘿!至少我從第一頁上刮掉了我需要的東西(哈哈) – Christian