0
我不得不做出一個刮刀,我不明白爲什麼它不工作...分頁(第二級) - scrapy蟒蛇
該網站有一個這樣的分頁:
<div class="pagination toolbarbloc">
<ul>
<li class="active"><span>1</span></li>
<li><a href="...">2</a></li>
<li><a href="...">3</a></li>
<li><a href="...">4</a></li>
<li><a href="...">5</a></li>
<li><a class="end" href="...">>></li>
</ul>
</div>
的當你去下一頁時,班級「主動」動作,所以在第5頁中,它是班級活動最後一個之前的班車「李」! 我趕上應答器「禮」後,將項目與類「活動」這樣的:
next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href'
它完美地工作了5個第一頁...但它不工作去第6頁漁獲應答器「一」 帶班結束...
我嘗試:
try:
next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href'
next_page_url = begin + response.xpath(next_page_url_xpath)[0].extract()
except (ValueError,IndexError):
next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/li/a[@class="end"]/@href'
next_page_url = begin + response.xpath(next_page_url_xpath)[0].extract()
有人有一個想法? :) 謝謝你的幫助!
嗨!感謝您的幫助! 我嘗試做你說的,但我不明白爲什麼它不返回最後一頁...我有: ['/vente-immobilier/annonces-vente-terrain-u26p2.html',' /vente-immobilier/annonces-vente-terrain-u26p3.html','/vente-immobilier/annonces-vente-terrain-u26p4.html','/vente-immobilier/annonces-vente-terrain-u26p5.html'] 沒有第6頁...:/ –
你能在我的例子中得到相同的結果嗎?如果你在我的例子中得到了相同的結果,但是在真正的scrapy工作中無法得到你想要的結果,那麼xml格式可能是不同的。 – zhongjiajie
我嘗試在我的scrapy但它沒有工作... 該網址是http://www.topannonces.fr/vente-immobilier/annonces-vente-terrain-u26.html 我不明白爲什麼它真的失敗了... –