剝離HTML標籤我試圖從soup.html.body.findAll('td', {'class':'yfnc_h'})
BeautifulSoup:從ResultSet中的findAll
ResultSet中去除所有的HTML標籤目前,ResultSet中有時會包含嵌套<a href>
,<td>
,等標籤。我發現的對ResultSet(而不是湯對象)起作用的唯一半解決方案是RSelement.string
但是,.string
無法處理具有多個嵌套標記的輸入,例如,
輸入:<td class="yfnc_h" align="right">53.50</td>
輸出:53.50
輸入:<td class="yfnc_h" align="right"><b>51.97</b></td>
輸出:None
輸入:<td class="yfnc_h" align="right"><span id="yfs_c10_djx131116c00100000"> <b style="color:#000000;">0.00</b></span></td>
輸出:無
如何從ResultSet輸出中去除所有標記?
是顯示您所需的輸出輸出? –
不,上面的輸出是實際的錯誤輸出。我想顯示53.50; 51.97; 0.00 –