我正在使用Scrapy進行報廢項目。Scrapy,網址上的哈希標記
我意識到Scrapy將URL從哈希標籤剝離到最後。
下面是從外殼輸出:
[s] request <GET http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C#/ref=sr_nr_p_8_0?rh=n%3A165796011%2Cn%3A%212334086011%2Cn%3A%212334148011%2Cn%3A3006339011%2Cp_8%3A2229010011&bbn=3006339011&ie=UTF8&qid=1309631658&rnid=598357011>
[s] response <200 http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C>
這確實影響了我再殺因爲經過了幾個小時試圖找出爲什麼不選擇一些項目,我認識到,通過長期提供的HTML網址與短網址提供的網址不同。另外,經過一番觀察,內容在一些關鍵部分發生了變化。
有沒有辦法修改這個行爲,讓Scrapy保持整個URL?
感謝您的反饋和建議。
感謝您的回答,我能夠在URL中獲得這個哈希標記背後的概念。基本上,按照@also的說法,JAX請求會生成一個響應,在我的情況下我必須解析JSON。下面的Scrapy示例在這個問題上提出了一些清晰的觀點。 這些文件有助於進一步參考: http://blog.scrapy.org/scraping-ajax-sites-with-scrapy http://code.google.com/web/ajaxcrawling/docs/ getting-started.html – romeroqj