Trulia表可以僅使用scrapy報廢嗎？

我可以得到行通過：

rows = response.xpath('//*[@id="middle_tab_content"]/table/tr[]').extract()

的問題是，有表中多個頁面保持相同鏈接

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

而行也保持相同的Xpath，表中沒有變化

編輯。

@Salman：我看到網絡選項卡，但無法找到XHR子選項卡

下一頁頁中使用XMLHttpRequest正在牽強。如果您在瀏覽器中檢查該頁面，則會找到該請求的網址。對於第二個頁面，它看起來像這樣：

http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

你可以做的是刮一個頁面，然後請求使用該URL的下一個頁面。您可以簡單地通過替換&page=<page>查詢中的頁碼來獲取每個頁面。

2016-01-05 08:15:11

你是怎麼得到這個地址的？它在我使用鉻的「檢查元素」中。 –

進入'網絡'選項卡，然後選擇'XHR'子選項卡。在這裏你可以看到'xhr'請求。 –

我看到網絡選項卡，但無法找到XHR子標籤 –

回答