我的問題與此處詢問的問題類似: https://stackoverflow.com/questions/14599485/news-website-comment-analysis 我試圖從任何新聞文章中提取評論。例如。我在這裏有一個新聞網址: http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/ 我想在Python中使用BeautifulSoup來提取評論。然而,它似乎是評論部分嵌入在iframe中或通過JavaScript加載。通過螢火蟲查看源代碼不會顯示評論部分的來源。但是,通過瀏覽器的視圖源功能顯式查看評論的來源確實如此。如何去提取評論,尤其是當評論來自新聞網頁中嵌入的不同網址時?從新聞文章中提取評論
這是我做了什麼到現在,雖然這不是什麼大:
import urllib2
from bs4 import BeautifulSoup
opener = urllib2.build_opener()
url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')
urlContent = opener.open(url).read()
soup = BeautifulSoup(urlContent)
title = soup.title.text
print title
body = soup.findAll('body')
outfile = open("brain.txt","w+")
for i in body:
i=i.text.encode('ascii','ignore')
outfile.write(i +'\n')
什麼我需要做什麼或如何去將不勝感激任何幫助。
你需要嘗試像硒過於模仿瀏覽器的JavaScript功能。 –
@SnakesandCoffee你並不需要特定情況下的js。它只是一個可以下載整個頁面的iframe。 –