2014-11-13 59 views
0

我正在嘗試使用以下代碼從網址中讀取文本,以便將所有有效的字符串存儲到一個我可以稍後操作的變量中。我在運行時得到一個錯誤,雖然BeautifulSoup getText拋出一個錯誤

from bs4 import BeautifulSoup 
import urllib.request 
from django.template.defaultfilters import title 

response = urllib.request.urlopen('http://www.scotland.org/about-scotland/facts-about-scotland/') 
data = response.read() 
soup = BeautifulSoup(data) 

textString = soup.findAll('p').getText() 
print(textString) 

錯誤:

textString = soup.findAll('p').getText() 
AttributeError: 'ResultSet' object has no attribute 'getText' 

回答

2

試試這個:

textString = soup.findAll('p')[0].getText() 

如果你想獲得的所有paragraph數據試試這個:

elements = soup.findAll('p') 
for paragraph in elements: 
    print paragraph.getText() 
+0

啊這個工程,雖然只需要從第一段的數據 – algorhythm

+0

@CMac檢查我的編輯。 –

0

我有一個工作。我想你的編輯也一樣,謝謝!

textString = "" 
for i in soup.find_all('p'): 
    textString += i.getText() 

print(textString)