2016-11-23 33 views
-3

我一直在試圖刮文本關閉這個網站http://www.ewtn.com/daily-readings/?date=2017-11-26scrapy可能被阻塞部位

,當我從殼型

>response.xpath('//text()').extract() 

我無法訪問下面的HTML信息

<span id="cur-date">Sunday, November 26, 2017</span> 

這將是週日,2017年11月26日

<div class="reading-type">First Reading</div> 

這將是首讀

我得到幾乎所有的頁面上的其他人,但 - 好像scrapy被阻止

+0

JavaScript。 Scrapy不運行JavaScript。嘗試使用阻止JS的瀏覽器打開頁面,您將看到問題。 – Markus

+0

謝謝!用scrapy-webdriver解決它 – mloch

回答

0

由於去馬庫斯爲把我在正確的方向!我用scrapy-webdriver讓我在PhantomJS中渲染JavaScript,以便用Scrapy解析它...因爲Scrapy不運行JavaScript,並且這個站點似乎將它直接注入到瀏覽器中以轉換成HTML ... PhantomJS是一個無頭瀏覽器爲Scrapy運行JavaScript。