2015-10-20 24 views
0

我試圖從這個中文網頁http://bxt.harbin.gov.cn/hrb_bzbxt/disshow.php?id=551950刮取數據。Scrapy選擇器無法返回所需的字符,可能是由於Javascript

在Scrapy shell中,我無法在任何td元素中獲取任何文本。例如,response.xpath("/html/body/center[2]/table/tbody/tr[2]/td[3]/text()").extract()返回一個空列表。對於其他類似的命令也會返回相同的結果。當我更仔細地檢查html時,我在head元素中找到了這個:「script language =」javascript「。我不確定這是否是問題的原因。是否有人可以幫我弄清楚嗎?我搜索了相關的Stackoverflow但這對我來說太複雜了。謝謝你的幫助!

+0

任何人都可以幫助我嗎?謝謝。 –

回答

1

這裏的問題是你正在使用完整的路徑來獲取你想要的信息,這是沒有必要的,所以不需要遵循html - >body - >center

你可以直接前往您所需要的信息td,喜歡的東西:

response.xpath('//td/text()') 

它將返回一個選擇器列表(td標記中的每個文本)以迭代您需要的信息。

相關問題