2015-10-17 27 views
1

我在scrapy shell中練習xpath。我的工作的wepage是響應不同於開始url

http://bxt.harbin.gov.cn/more.php?nameid=1&frameid=1&colorid=1

我想在表中scrapy數據。但我在Windows CMD輸入

scrapy shell http://bxt.harbin.gov.cn/more.php?nameid=1&frameid=1&colorid=1 

後,我發現,在「可用Scrapy對象,」有

[s] response <200 http://bxt.harbin.gov.cn/more.php?nameid=0> 

的響應URL是我想工作的網址不同。錯誤的網址沒有我想要提取的數據。任何想法爲什麼這是這種情況?謝謝!

回答

1

所需表位於一個iframe內 - 到的URL從其中iframe被加載:

$ scrapy shell http://bxt.harbin.gov.cn/hrb_bzbxt/list_hf.php 
In [1]: for row in response.xpath("//table[3]//tr[position() > 1]"): 
    print row.xpath(".//td[1]/text()").extract()[0] 
    ...: 
551626 
551617 
551616 
551614 
551612 
551611 
... 
551521 

在演示上述每個錶行的第一個單元格的內容被打印。