2013-10-31 52 views
3

剝離HTML標籤我試圖從soup.html.body.findAll('td', {'class':'yfnc_h'})BeautifulSoup:從ResultSet中的findAll

ResultSet中去除所有的HTML標籤目前,ResultSet中有時會包含嵌套<a href><td>,等標籤。我發現的對ResultSet(而不是湯對象)起作用的唯一半解決方案是RSelement.string

但是,.string無法處理具有多個嵌套標記的輸入,例如,

輸入:<td class="yfnc_h" align="right">53.50</td>

輸出:53.50

輸入:<td class="yfnc_h" align="right"><b>51.97</b></td>

輸出:None

輸入:<td class="yfnc_h" align="right"><span id="yfs_c10_djx131116c00100000"> <b style="color:#000000;">0.00</b></span></td>

輸出:無

如何從ResultSet輸出中去除所有標記?

+0

是顯示您所需的輸出輸出? –

+0

不,上面的輸出是實際的錯誤輸出。我想顯示53.50; 51.97; 0.00 –

回答

3

使用.text屬性改爲:

print RSelement.text 
+0

print RSelement.text給了我所有的「無」結果。 –

+1

@JackHuang當我做'BeautifulSoup('51.97').text'時,你使用的是什麼版本的BeautifulSoup – TerryA

+0

好吧,這很奇怪。我得到「無」印刷'確切的代碼。 –

相關問題