無法使用lxml和xpath從html中檢索文本

我正在進行第二套住房定價項目，所以我需要從中國最大的第二家交易平臺之一中獲取信息。這裏是我的問題，是頁面上的信息，並使用Chrome「檢查」功能，相應的元素如下：無法使用lxml和xpath從html中檢索文本

我的代碼：

>>>from lxml import etree 
>>>import requests 
>>>url = 'http://bj.lianjia.com/chengjiao/101101498110.html' 
>>>r = requests.get(url) 
>>>xiaoqu_avg_price = tree.xpath('//[@id="resblockCardContainer"]/div/div/div[2]/div/div[1]/span/text()') 
>>>xiaoqu_avg_price 
[]

返回空列表是不可取的（理想情況下它應該是73648）。此外，我認爲它的HTML源代碼，其中顯示：

那麼應該怎麼辦得到我想要什麼？什麼是resblockCard的意思？謝謝。

來源

2017-05-07 Leslie Cheung

你試過用'.xiaoqu_main_info/text（）' –

這個網站和許多其他人一樣使用ajax來填充內容。如果您提出類似的請求，您可以使用json格式獲得所需的值。

import requests 

url = 'http://bj.lianjia.com/chengjiao/resblock?hid=101101498110&rid=1111027378082' 
# Get json response 
response = requests.get(url).json() 
print(response['data']['resblock']['unitPrice']) 
# 73648

請注意請求url中的兩組數字。 resblockId:'1111027378082'：從原來的頁面URL中的第一組，第二你可以在script標籤在原頁面的源代碼發現。

來源

2017-05-07 19:44:28 vold

這是預期的，因爲你正在運行它靠在頁面的源代碼，因爲它是由服務器提供的，並不像它看起來呈現的瀏覽器頁面上的XPath查詢不工作。

對此的一個解決方案是使用Selenium與PhantomJS或其他瀏覽器驅動程序一起使用，該驅動程序將在該頁面上運行JavaScript並呈現給您。

from selenium import webdriver 
from lxml import html 

driver = webdriver.PhantomJS(executable_path="<path to>/phantomjs.exe") 
driver.get('http://bj.lianjia.com/chengjiao/101101498110.html') 
source = driver.page_source 
driver.close() # or quit() if there are no more pages to scrape 

tree = html.fromstring(source) 
price = tree.xpath('//div[@id="resblockCardContainer"]/div/div/div[2]/div/div[1]/span/text()')[0].strip()

以上返回73648 元/㎡。

來源

2017-05-07 17:02:34

無法使用lxml和xpath從html中檢索文本

回答

相關問題