1
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
class InfoSpider(scrapy.Spider):
name = 'info'
allowed_domains = ['womenonlyconnected.com']
start_urls =['http://www.womenonlyconnected.com/socialengine/pageitems/index']
def parse(self, response):
urls = response.xpath('//h3/a/@href').extract()
for url in urls:
absolute_url = response.urljoin(url)
yield Request(absolute_url , callback = self.parse_page)
def parse_page(self , response):
pass
這裏用我的代碼,這個代碼我可以湊僅前24個鏈接只需要在「查看更多」後刮所有環節幫助的 頁PAG網址是bbelow http://www.womenonlyconnected.com/socialengine/pageitems/indexScrapy:刮網頁上的「下一個」結果使用scrapy
@TomášLinhart,我也檢查過該網站。這是最後一頁'http://www.womenonlyconnected.com/socialengine/pageitems/index?page = 47'。 – SIM
@Shahin這不是真正通用的解決方案,因爲添加文章時頁面的數量可能隨時間而變化。真正通用的解決方案涉及使用(無頭)瀏覽器來呈現頁面,例如,濺。 –