2016-12-25 75 views
1

我得到網頁的評論,並且需要掃描每一頁,直到不再有任何評論爲止。評論頁面有多個頁面,我的第一個想法是使用While循環,但是,我不確定從哪裏開始。網頁的HTML代碼看起來與此類似。 enter image description here使用「下一步」按鈕進行網頁搜刮Python

上一頁的HTML代碼; enter image description here

任何幫助表示讚賞。

+0

顯示代碼,您都試過了。同時分享最後一頁的「HTML」 – Andersson

+0

檢查URL是否有頁面作爲參數。如果是這樣,則不需要使用下一個按鈕。而對於解析HTML,我會建議[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc) –

+0

URL沒有頁面參數。我無法想出一些循環的東西。任何代碼建議都非常受歡迎。 @Andersson – Pythoner1234

回答

3

嘗試點擊Next,同時可以發現:到目前爲止

from selenium import webdriver 
from selenium.common.exceptions import NoSuchElementException 

driver = webdriver.Firefox() 
driver.get("http://www.some_site.com") 
while True: 
    # do whatever you want 
    try: 
     driver.find_element_by_xpath('//a/span[text()="Next"]').click() 
    except NoSuchElementException: 
     break 
+0

我得到這個錯誤:NameError:全局名稱'驅動程序'未定義。我之前沒有使用Selenium,我的代碼使用urllib2請求並使用BeautifulSoup進行分析。 @Andersson – Pythoner1234

+0

答覆已更新。如果您使用'http'請求獲取頁面「HTM​​L」源代碼,爲什麼您需要'selenium'呢? – Andersson

+0

爲了使用類似瀏覽器的html代碼來點擊下一個按鈕。我找不到比Selenium更直接的方法。 – Pythoner1234