使用「下一步」按鈕進行網頁搜刮Python

我得到網頁的評論，並且需要掃描每一頁，直到不再有任何評論爲止。評論頁面有多個頁面，我的第一個想法是使用While循環，但是，我不確定從哪裏開始。網頁的HTML代碼看起來與此類似。使用「下一步」按鈕進行網頁搜刮Python

上一頁的HTML代碼;

任何幫助表示讚賞。

來源

2016-12-25 Pythoner1234

顯示代碼，您都試過了。同時分享最後一頁的「HTML」 – Andersson

檢查URL是否有頁面作爲參數。如果是這樣，則不需要使用下一個按鈕。而對於解析HTML，我會建議[BeautifulSoup]（https://www.crummy.com/software/BeautifulSoup/bs4/doc） –

URL沒有頁面參數。我無法想出一些循環的東西。任何代碼建議都非常受歡迎。 @Andersson – Pythoner1234

嘗試點擊Next，同時可以發現：到目前爲止

from selenium import webdriver 
from selenium.common.exceptions import NoSuchElementException 

driver = webdriver.Firefox() 
driver.get("http://www.some_site.com") 
while True: 
    # do whatever you want 
    try: 
     driver.find_element_by_xpath('//a/span[text()="Next"]').click() 
    except NoSuchElementException: 
     break

來源

2016-12-25 12:19:34 Andersson

我得到這個錯誤：NameError：全局名稱'驅動程序'未定義。我之前沒有使用Selenium，我的代碼使用urllib2請求並使用BeautifulSoup進行分析。 @Andersson – Pythoner1234

答覆已更新。如果您使用'http'請求獲取頁面「HTML」源代碼，爲什麼您需要'selenium'呢？ – Andersson

爲了使用類似瀏覽器的html代碼來點擊下一個按鈕。我找不到比Selenium更直接的方法。 – Pythoner1234

使用「下一步」按鈕進行網頁搜刮Python

回答

相關問題