提取文本文件包含類似下面的HTML代碼(詞「登記」和「飛」是固定在下面的段落):的Python + BeautifulSoup - 通過搜索標準
<TR>
<TD class=CAT2 width="10%">Registration</TD>
<TD class=CAT1 width="20%">02 Mar 2006</TD></TR>
<TR>
<TD class=CAT2 width="10%">Flying</TD>
<TD class=CAT1 width="20%">24 Jun 2005</TD></TR>
我想提取它們,把爲:
月24日註冊2006年03月02日
飛行2005
我正在使用BeautifulSoup find_next_sibling,但它不返回任何內容。出了什麼問題?
from bs4 import BeautifulSoup
url = r"C:\example.html"
page = open(url)
soup = BeautifulSoup(page.read())
aa = soup.find_next_sibling(text='Registration')
print aa
,如果你改變'將工作 「登記:」''以 「註冊」' –
感謝洛基和巴拉克馬諾斯。 –