我得到網頁的評論,並且需要掃描每一頁,直到不再有任何評論爲止。評論頁面有多個頁面,我的第一個想法是使用While循環,但是,我不確定從哪裏開始。網頁的HTML代碼看起來與此類似。 使用「下一步」按鈕進行網頁搜刮Python
任何幫助表示讚賞。
我得到網頁的評論,並且需要掃描每一頁,直到不再有任何評論爲止。評論頁面有多個頁面,我的第一個想法是使用While循環,但是,我不確定從哪裏開始。網頁的HTML代碼看起來與此類似。 使用「下一步」按鈕進行網頁搜刮Python
任何幫助表示讚賞。
嘗試點擊Next
,同時可以發現:到目前爲止
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
driver = webdriver.Firefox()
driver.get("http://www.some_site.com")
while True:
# do whatever you want
try:
driver.find_element_by_xpath('//a/span[text()="Next"]').click()
except NoSuchElementException:
break
我得到這個錯誤:NameError:全局名稱'驅動程序'未定義。我之前沒有使用Selenium,我的代碼使用urllib2請求並使用BeautifulSoup進行分析。 @Andersson – Pythoner1234
答覆已更新。如果您使用'http'請求獲取頁面「HTML」源代碼,爲什麼您需要'selenium'呢? – Andersson
爲了使用類似瀏覽器的html代碼來點擊下一個按鈕。我找不到比Selenium更直接的方法。 – Pythoner1234
顯示代碼,您都試過了。同時分享最後一頁的「HTML」 – Andersson
檢查URL是否有頁面作爲參數。如果是這樣,則不需要使用下一個按鈕。而對於解析HTML,我會建議[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc) –
URL沒有頁面參數。我無法想出一些循環的東西。任何代碼建議都非常受歡迎。 @Andersson – Pythoner1234