2011-08-25 57 views
5

我解析與BeautifulSoup一個網頁,它有像一些要素如下:獲取文本一個標籤內外另一個

<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font> 16043646</td> 

結構似乎總是一個<td>與包圍的第一部分<font><b></font>標籤後面的文本可以爲空。我怎樣才能得到字體標籤後的文字?

在這個例子中,我想得到"16043646"。如果HTML是不是

<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font></td> 

我會想""

回答

5
>>> from BeautifulSoup import BeautifulSoup 
>>> text1 = '<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font> 16043646</td>' 
>>> text2 = '<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font></td>' 
>>> BeautifulSoup(text1).td.font.nextSibling 
u' 16043646' 
>>> BeautifulSoup(text2).td.font.nextSibling 
>>> 
+0

感謝。我在看文檔的這一部分,但我沒有意識到nextSibling在標籤之外獲得了文本。 – murgatroid99

相關問題