2016-12-23 73 views
-1

這個問題類似於被問到here的問題,但答案不是很有幫助。使用Python和美味湯提取Disqus評論

我想從使用Disqus的網頁中提取評論,但是我無法訪問該部分。

這是我迄今爲止,它沒有太多

import urllib 
import urllib2,cookielib 
from bs4 import BeautifulSoup 
from IPython.display import HTML 

site= "http://www.timesofmalta.com/articles/view/20161207/local/daphne-caruana-galizia-among-politicos-28-most-influential.633146" 
hdr = {'User-Agent':'Mozilla/5.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'} 
req = urllib2.Request(site,headers=hdr) 
page = urllib2.urlopen(req) 

soup = BeautifulSoup(page,"html.parser") 
title = soup.title.text 
print title 

任何提示,我怎麼可能會試圖解決呢?

+0

這取決於網頁。您嘗試使用JavaScript動態加載評論的網站,因此您無法使用urllib進行刮取,您需要使用類似Selenium的內容。 –

+0

[用Python抓取JavaScript網頁]可能的重複(http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –

回答

0

我在嘗試下載java上的無限滾動時遇到了同樣的問題。在做了一百萬件事情,包括美麗的湯後,我意識到解決這個問題的最佳方法是使用chrome進行調試,以獲取隨動態內容加載而出現的請願的URL,然後找到調節方法表達,以便我可以用不同的方式調用它。例如,如果當你激活無限滾動時,你打開了chrome調試控制檯,你會看到一個HTTP請求(可能是HTTP-get)出來。如果URL的結構如圖:

HTTP:www.yourlink.com/get_comments/product/page_offset_numbertoload/

,你將能夠用Python來構建一個HTTP申請併發送,得到的迴應中,您正在查找的數據將被存儲。祝你好運!