2016-01-05 43 views
2

我刮這樣的頁面表:處理的XMLHttpRequest在scrapy

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

有幾個頁面,其變化是通過一個XMLHttpRequest表,檢查網頁,我可以得到TE網址此請求

http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

但我不能scrapy湊這個網址

當我嘗試時:

scrapy shell http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc 

我沒有得到迴應,該數據如何被刮掉?

+4

用''「' – eLRuLL

+1

環繞網址它有效,爲什麼需要在這個頁面使用」「,而不是原始頁面http://www.trulia.com/school-district/CA-San_Francisco_County/ San_Francisco_Unified /?你能解釋一下這個問題嗎? –

+3

,因爲第二個url包含'&',它也被shell識別爲運行另一個進程。 – eLRuLL

回答

1

[原帖由eLRuLL在評論]

環繞您的​​網址以"",因爲第二URL包含&這也是由shell運行另一個進程的認可。