BeautifulSoup不解析整個頁面的內容

我想從newyork時間獲得一組url（這是網頁），但我得到了一個不同的答案，我相信我給了一個正確的類，儘管它提取了不同的類。我ny_url.txt有「http://query.nytimes.com/search/sitesearch/?action=click&region=Masthead&pgtype=SectionFront&module=SearchSubmit&contentCollection=us&t=qry900#/isis; http://query.nytimes.com/search/sitesearch/?action=click&region=Masthead&pgtype=SectionFront&module=SearchSubmit&contentCollection=us&t=qry900#/isis/since1851/allresults/2/」BeautifulSoup不解析整個頁面的內容

這裏是我的代碼：

import urllib2 
import urllib 
from cookielib import CookieJar 
from bs4 import BeautifulSoup 
cj = CookieJar() 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 
text_file = open('ny_url.txt', 'r') 
for line in text_file: 
    print line 
    soup = BeautifulSoup(opener.open(line)) 
    links = soup.find_all('div', attrs = {'class' : 'element2'}) 
    for href in links: 
     print href

來源

2014-09-26 sruti hasan

Iam期待這個結果「http://topics.nytimes.com/top/reference/timestopics/organizations/i/isis/index.html?8qa，http://www.nytimes.com/2014/08/ 25/world/middleeast/isis-militants-capture-air-base-from-syrian-government-forces.html「 – 2014-09-26 20:35:43

行可能包含'\ n'字符。試試'opener.open（line [： - 1]）' – user3557327 2014-09-26 20:35:53

這就是我得到的結果：根據你的建議進行編輯後......「http://query.nytimes.com/search/sitesearch/?action= click＆region = Masthead＆pgtype = SectionFront＆module = SearchSubmit＆contentCollection = us＆t = qry900＃/ isis

「 – 2014-09-26 20:40:01

那麼它不是那麼簡單。

您正在查找的數據不在您urllib2下載的page_source中。

嘗試打印opener.open(line).read()您會發現要丟失的數據。

這是因爲，該網站正在另一個GET請求http://query.nytimes.com/svc/cse/v2pp/sitesearch.json?query=isis&page=1

其中URL中的查詢參數傳遞query=isis和page=1

的數據獲取是JSON格式，嘗試打開上述網址在瀏覽器中手動。你會在那裏找到你的數據。

所以純pythonic的方式是調用此url並解析JSON以獲取所需內容。不需要火箭科學 - 只需使用適當的鍵來解析字典。

更簡單的方法是使用webdrivers像Selenium - 瀏覽網頁 - 和分析使用BeautifulSoup頁面的源代碼。這應該很容易獲取整個內容。

希望有所幫助。讓我知道你是否需要更多的見解。

來源

2014-09-26 22:07:07

BeautifulSoup不解析整個頁面的內容

回答

相關問題