0
我需要從本網站抓取一些新聞:https://www.huxiu.com/channel/103.html。這裏103是新聞類別ID。使用Scrapy抓取數據以加載更多內容?
但是,如果沒有觸發Ajax加載更多的我只能拿到第一頁:
很奇怪的請求的URL是不同的新聞類別相同。
和頁面信息被引用者提供的頭文件。該頁面由表單數據發送。
這裏是我的代碼片段:
self.page += 1
url = "https://www.huxiu.com/channel/ajaxGetMore"
method = "POST"
headers = {
"Host": "www.huxiu.com",
"Origin": "https://www.huxiu.com",
"Referer": "https://www.huxiu.com/channel/106.html",
"User-Agent": (
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/"
"537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Sa"
"fari/537.36"
),
"X-Requested-With": "XMLHttpRequest",
}
formdata = {
"huxiu_hash_code": "9aee58d3507ecafed74df13e156ab01b",
"page": str(self.page),
"catId": "106"
}
yield FormRequest(
url=url,
method=method,
headers=headers,
formdata=formdata,
callback=self.parse
)
它未能裝載更多新聞提要。如何發送帖子請求來抓取更多新聞?
是哈希碼總是相同的,如果你檢查你的瀏覽器發送什麼?難道哈希碼是從頁面本身獲取的嗎? –
哈希碼總是相同的。 – lerner