4
我正在使用BeautifulSoup,並且想出了一個錯誤或者是我的錯誤。在我的例子,我爬紐約時報的子部分網站...BeautifulSoup只返回頭標內部的內容
import urllib2
from bs4 import BeautifulSoup
website = "http://www.nytimes.com/pages/politics/index.html"
data = BeautifulSoup(urllib2.urlopen(website).read())
print data
當我運行的代碼,我用頭標籤返回的,什麼是它裏面。但是,它不會抓住身體標籤內的內容。如果我要將網址更改爲http://www.nytimes.com
,則BS將返回完整頁面源。這裏發生了什麼,以及爲什麼當我抓取http://www.nytimes.com/pages/politics/index.html
時沒有獲取身體標記?
無法複製下面的錯誤進行了說明。當我運行這個代碼時,它會得到整個頁面,而不僅僅是'head'標籤。 –
嗯......問題中的代碼是逐字的,以我的文件中的內容。我會說它也抓住了'html'標籤。它只是像'body'標籤不存在一樣。 – jason328
您使用的是什麼版本的BeautifulSoup?並且要清楚的是,如果在上面的代碼(僅僅是上面的代碼)之後打印'data.body',它會打印'None'? (對我來說,它打印'body'標籤的內容) –