2016-01-05 24 views
0

我找這類表的內容:Trulia表可以僅使用scrapy報廢嗎?

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

我可以得到行通過:

rows = response.xpath('//*[@id="middle_tab_content"]/table/tr[]').extract() 

的問題是,有表中多個頁面保持相同鏈接

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/ 

而行也保持相同的Xpath,表中沒有變化

編輯。

@Salman:我看到網絡選項卡,但無法找到XHR子選項卡

enter image description here

回答

1

下一頁頁中使用XMLHttpRequest正在牽強。如果您在瀏覽器中檢查該頁面,則會找到該請求的網址。對於第二個頁面,它看起來像這樣:

http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc 

你可以做的是刮一個頁面,然後請求使用該URL的下一個頁面。您可以簡單地通過替換&page=<page>查詢中的頁碼來獲取每個頁面。

+0

你是怎麼得到這個地址的?它在我使用鉻的「檢查元素」中。 –

+0

進入'網絡'選項卡,然後選擇'XHR'子選項卡。在這裏你可以看到'xhr'請求。 –

+0

我看到網絡選項卡,但無法找到XHR子標籤 –