通常情況下,您需要獲取您加載頁面的DOM。
這裏我加載第一頁,點擊下一頁,根據body
元素的id
獲取它的DOM。我要求innerHTML
這個元素,以便(a)我可以使用BeautifulSoup解析它,以證明內容與第一頁不同,並且(b)它可以作爲你的五萬多個文檔之一保存到文件中。
>>> from selenium import webdriver
>>> driver = webdriver.Chrome()
>>> driver.get('https://www.parlament.ch/de/ratsbetrieb/suche-curia-vista')
>>> driver.find_element_by_id('PageLinkNext').click()
>>> DOM = driver.execute_script('return document.getElementById("ng-app").innerHTML;')
>>> page = bs4.BeautifulSoup(DOM, 'lxml')
>>> page.find_all('h4', {'class', "ms-srch-item-area"})
[<h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173611">Interpellation - Herzog Verena</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173610">Interpellation - Tornare Manuel</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173609">Postulat - Gmür Alois</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173608">Interpellation - Reynard Mathias</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173607">Motion - FDP-Liberale Fraktion</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173606">Interpellation - Bourgeois Jacques</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173605">Motion - Gmür-Schönenberger Andrea</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173604">Motion - Fraktion BD</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173603">Postulat - Dettling Marcel</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173602">Postulat - Mazzone Lisa</a> </h4>]
>>> driver.quit()
>>> from selenium import webdriver
>>> driver = webdriver.Chrome()
>>> driver.get('https://www.parlament.ch/de/ratsbetrieb/suche-curia-vista')
>>> driver.find_element_by_id('PageLinkNext').click()
>>> DOM = driver.execute_script('return document.getElementById("ng-app").innerHTML;')
>>> import bs4
>>> page = bs4.BeautifulSoup(DOM, 'lxml')
>>> page.find_all('h4', {'class', "ms-srch-item-area"})
[<h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173611">Interpellation - Herzog Verena</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173610">Interpellation - Tornare Manuel</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173609">Postulat - Gmür Alois</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173608">Interpellation - Reynard Mathias</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173607">Motion - FDP-Liberale Fraktion</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173606">Interpellation - Bourgeois Jacques</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173605">Motion - Gmür-Schönenberger Andrea</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173604">Motion - Fraktion BD</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173603">Postulat - Dettling Marcel</a> </h4>, <h4 class="ms-srch-item-area"> <a href="/de/ratsbetrieb/suche-curia-vista/geschaeft?AffairId=20173602">Postulat - Mazzone Lisa</a> </h4>]
如果這適用於您,請將其標記爲'accepted',以便其他人可以找到它。