發行刮頁面

我與scrapy刮房屋廣告的UL部分。

我成功收集每個廣告的大部分住房特徵，隨後用大熊貓進行分析。

問題

我似乎無法湊了一定ul廣告頁面。這個問題涉及任何房屋廣告頁面上的「主要功能」和「額外」部分：例如this one。

當我嘗試刮擦元素時，我收到一個空白返回。

嘗試次數

我試過以下，以獲得 '附加'

response.css("section.divFeatures") # empty 

response.css("div.detail-section-content::text", # gives me the property location (strange) 
     ).extract() 

response.css("#divFeatures").extract() # empty

這個名單去對。

我做錯了什麼，以及我如何成功獲取元素？

來源

2017-06-10 LucSpan

這是因爲該數據被通過JavaScript裝載有[此]（http://www.fotocasa.es/ws/DetailModular.asmx/GetPrincipalFeatures?adId=142804619&promotionId=0&tti=3&periodicityId=3&culture=en-US）URL – Casper

謝謝Casper！只是爲了我的理解，你評論中的網址會被刮掉嗎？如果是這樣，你是否從某個頁面的代碼中獲取它？ – LucSpan

是的，該網址將被刮掉。我不確定是否有更好的方法來查看數據來自哪裏，但我只是在Chrome中打開檢查窗口，然後使用「網絡」選項卡查看加載的數據。最終你會找到這樣一個包含你所需信息的頁面。 – Casper

您可以直接查詢@Casper提到的那個頁面......或者您可以使用運行javascript的引擎，並像編輯常規webbrowser一樣編輯DOM，並在編輯後獲取html。這些將在網頁上運行所有javascript，並且具有與在Chrome中打開檢查面板時看到的結構完全相同的結構。您可以使用Selenium + ChromeDriver（+ XVFB如果您想運行無頭）或phantomjs等。

來源

2017-06-13 16:13:59 RabidCicada

回答

相關問題