2013-07-19 25 views
0

我在與BeautifulSoup混淆,發現它偶爾只需要很長的時間來解析一個頁面,儘管沒有任何代碼或連接的變化。有任何想法嗎?BeautifulSoup結冰

from bs4 import BeautifulSoup 
from urllib2 import urlopen    
#The particular state website: 
site = "http://sfbay.craigslist.org/rea/" 
html = urlopen(site)      
print "Done" 
soup = BeautifulSoup(html)     
print "Done" 

#Get first 100 list of postings: 
postings = soup('p') 
+1

不回答你的問題(我相信答案是 - 這是你的互聯網):我會注意到'html'實際上不是HTML - 只是連接...你需要使用'.read()'來獲取數據...... –

+0

謝謝。這就是訣竅:) –

回答

0

如果由於某種原因你想在<a>標籤中讀課文,你可以做這樣的事情。

postings = [x.text for x in soup.find("div", {"class":"content"}).findAll("a", {"class":"hdrlnk"})] 
print(str(postings).encode('utf-8')) 

這將返回的100

0
postings = soup('p') 

長度此代碼是不好的列表。計算機必須檢查每一行以確保p標籤一個接一個。

aTag = soup.findAll('a',class_='result_title hdrlnk') 
for link in aTag: 
    print(link.text)