我正在使用scrapy。如何從無限滾動網站上刮取所有內容? scrapy
我使用的網站有無限滾動。
網站有帖子的負荷,但我只刮出13
如何刮職位的休息嗎?
這裏是我的代碼:
class exampleSpider(scrapy.Spider):
name = "example"
#from_date = datetime.date.today() - datetime.timedelta(6*365/12)
allowed_domains = ["example.com"]
start_urls = [
"http://www.example.com/somethinghere/"
]
def parse(self, response):
for href in response.xpath("//*[@id='page-wrap']/div/div/div/section[2]/div/div/div/div[3]/ul/li/div/h1/a/@href"):
url = response.urljoin(href.extract())
yield scrapy.Request(url, callback=self.parse_dir_contents)
def parse_dir_contents(self, response):
#scrape contents code here
我試着把深度限制在我的設置中,但仍然無法進入..它堅持獲得所有這些鏈接:「www.example.com/blog/2016/05/13」但它沒有點擊鏈接並在裏面刮.. – Michimcchicken
對不起,我不明白它卡在哪裏。你可以在網上查看一些例子,例如https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/dmoz.py – WannaBeCoder
你能查看我的最後一次編輯嗎?我想知道它是否有幫助D: – Michimcchicken