與BS4一個新手,我的工作如何從一系列的網頁表格,其中之一是這樣的提取文本尋找一些幫助:美麗的湯:提取標記和非標記HTML文本
<table style="padding:0px; margin:1px" width="715px">
<tr>
<td height="22" width="33%" >
<span class="darkGreenText"><strong> Name: </strong></span>
Tyto alba
</td>
<td height="22" width="33%" >
<span class="darkGreenText"><strong> Order: </strong></span>
Strigiformes
</td>
<td height="22" width="33%">
<span class="darkGreenText"><strong> Family: </strong></span>
Tytonidae
</td>
<td height="22" width="66%" colspan="2">
<span class="darkGreenText"><strong> Status: </strong></span>
Least Concern
</td>
</tr>
</table>
所需的輸出:
Name: Tyto alba
Order: Strigiformes
Family: Tytonidae
Status: Least Concern
使用[index]
推薦(https://stackoverflow.com/a/35050622/1726290)我試過, 也next_sibling
(https://stackoverflow.com/a/23380225/1726290),但我被卡住,因爲我需要文本的一部分是塔格編輯和第二部分是不是。任何幫助,將不勝感激。
什麼是無標記?所有你想要的是td文本。 –
尊敬的坎寧安先生,對不起,您覺得有必要發表一條評論,對這個領域的新手錶示很少的同情心。提問者可能不太清楚對你而言可能是非常明顯的。 – MichaelMaggs
如果你是RTFM,那麼這對你來說將是非常明顯的,這是任何人在閱讀優秀,全面和易於理解的bs4文檔5分鐘後就會知道的。作爲一名新手而沒有做出基本的努力是有區別的。 –