2012-11-18 66 views
3

參見下頁從選擇文本:返回使用BeautifulSoup

http://www.aidn.org.au/Industry-ViewCompany.asp?CID=3113

我有以下刮代碼:

findit = soup.find_all("td", "Page-Headers", align="left") 
print findit 

其返回如下:

[<td align="left" class="Page-Headers" valign="middle">Aerospace Materials Pty Ltd</td>] 

目前爲止還不錯。

如何使用BeautifulSoup從此模式返回文本元素(「Aerospace Materials Pty Ltd」)?或者是簡單地對這個輸出進行regex的最好方法?

謝謝!

回答

3

使用getText

for td in soup_result: 
    print td.getText() 

或由@Zero比雷埃夫斯指出了bs4你應該使用.get_text()

+1

OP正在使用BS4,所以應該真的是'td.get_text()'... –

+0

@零度感謝評論 - 顯示自從我使用BeautifulSoup以來多久以前! –

+0

感謝你們倆。正是我在找什麼。 –

2

可以使用.string屬性:

>>> for el in findit: 
... print el.string 
... 
Aerospace Materials Pty Ltd 
>>> 
+0

謝謝 - 工作也很好。 –