從具有類似xpath的網頁（可以在列表中提取的內容）中提取所有內容

我必須刮這頁，http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature。雖然使用xpath我可以刮電影名稱，'失落的城市Z'。下面是代碼：從具有類似xpath的網頁（可以在列表中提取的內容）中提取所有內容

driver_t.get('http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature') 
    x= driver_t.find_element_by_xpath('//*[@id="main"]/div/div/div[3]/div[1]/div[3]/h3/a') 
    print x.text

爲了湊所有的電影，我刪除了[1]中的XPath

driver_t.get('http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature') 
    x= driver_t.find_element_by_xpath('//*[@id="main"]/div/div/div[3]/div/div[3]/h3/a') 
    print x.text

但是，輸出是唯一的第一部電影的名字（「迷失之城''）

這工作在'R'，但它不工作在python（硒webdriver）。有人能告訴我我哪裏錯了嗎？

來源

2017-07-28 sky_bird

這裏是回答你的問題：

爲了湊所有網頁中的電影與URL http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature代替find_element_by_xpath我們將使用driver.find_elements_by_xpath這將返回一個列表。接下來，我們將遍歷列表並檢索文本並逐個打印它們。以下是供您參考的代碼區：

from selenium import webdriver 
from selenium.webdriver.chrome.options import Options 

options = Options() 
options.add_argument("start-maximized") 
options.add_argument("disable-infobars") 
options.add_argument("--disable-extensions") 
driver = webdriver.Chrome(chrome_options=options, executable_path="C:\\Utility\\BrowserDrivers\\chromedriver.exe") 
driver.get("http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature") 
titles = driver.find_elements_by_xpath("//h3[@class='lister-item-header']/a") 
for title in titles: 
    movie_name = title.get_attribute("innerHTML") 
    print(movie_name)

讓我知道這個答案是否是您的問題。

來源

2017-07-28 04:26:32 DebanjanB

非常感謝！ :)這就是我想要的。你能告訴我你是如何得到這個xpath的嗎？「// h3 [@ class ='lister-item-header']/a」？而且，選項功能的意義何在。 –

好的，簡單地說，xpath，「// h3 [@ class ='lister-item-header']/a」標識我們感興趣的元素的常見xpath。選項類可以幫助您「啓動最大化」，「禁用信息欄」和「如果任何擴展程序嘗試默認加載時禁用」。謝謝 – DebanjanB

你能建議我一個鏈接，我可以詳細研究這個嗎？當我嘗試用於其他網站時，尋找常見的xpath變得有點棘手。 –

你想要find_elements_by_xpath（複數元素）。

您也可以簡化的XPath公式：

titles = driver.find_elements_by_xpath('.//h3[@class="lister-item-header"]//a')

然後第一個和最後一個冠軍成爲可用：

>>> titles[0].text 
'The Lost City of Z' 
>>> titles[99].text 
'Raw'

不過，我注意到最後一部電影的全稱是'原始II'。你可能認爲有必要使用類似的東西，然後放棄年份。

>>> titles[99].find_element_by_xpath('../span[2]').text 
'(II) (2016)'

來源

2017-07-28 03:46:52

find_elements_by_xpath help !! :)謝謝。 –

從具有類似xpath的網頁（可以在列表中提取的內容）中提取所有內容

回答

相關問題