我的工作scrapy如何避免scrapy忽略哈希標籤
我有一個網站與包括散列標籤刮掉,但是當我運行它,scrapy下載忽略哈希標籤
例如響應這是與hash fragments
,url="www.example.com/hash-tag.php#user_id-654"
和該請求的響應只有www.example.com/hash-tag.php
的網址,但我想刮哈希碎片的網址。
我的代碼如下
class ExampleSpider(BaseSpider):
name = "example"
domain_name = "www.example.com"
def start_requests(self):
return Request("www.example.com/hash-tag.php#user_id-654")
def parse(self):
print response
結果:
<GET www.example.com/hash-tag.php>
我怎樣才能做到這一點...... 在此先感謝........... .....
散列標籤如何添加額外信息?散列標籤永遠不會發送到服務器,它們只是瀏覽器端的信息,然後頁面中的任何額外信息就已經存在或者用JavaScript和AJAX加載。 –
@Martijn彼得斯:感謝您的回覆,我意識到他們是瀏覽器端的唯一信息,我會編輯我的問題,如果有必要,但有沒有一種方法在scrapy避免忽略哈希標記,因爲我想實現分頁之一該網站,所以當我點擊頁碼上面的格式(我的意思是包括哈希標籤)的網址生成。所以我想使用該哈希標記,並動態地傳遞值來實現分頁,這是我的意圖,你可以提供給我一種方式,我希望你明白這一點.. –
你在地址欄中看到的東西並不完全相同被髮送到服務器。使用帶有詳細網絡報告工具的瀏覽器(在Chrome中按CTRL-SHIFT-I,點擊網絡,使用目標站點),以便您可以看到來回發送的內容。機會很好,你會發現實際的請求URL與地址欄中的url非常不同;該頁面是由JavaScript動態構建的,但是從後臺獲取的常規資源 – SingleNegationElimination