我有一個包含一個html:BeautifulSoup <b>大膽</b>標籤失敗
<b>
<p align="left">TXT1</p>
</b>
<p align="left">
<b>NR1</b>
<b>TXT2</b>
TXT3
<b>TXT4</b>
TXT5
</p>
當我這樣做:
from BeautifulSoup import BeautifulSoup
html = urllib.urlopen('url')
htmlr = html.read()
soup = BeautifulSoup(htmlr)
print soup
我得到不同的東西:
<p align="left">TXT1</p>
<p align="left">NR1 <b>TXT2</b> TXT3 <b>TXT4</b>
TXT5</p>
我分析HTML文件的佈局,所以丟失標籤是相當令人沮喪的。爲什麼會發生這種情況,最好的辦法是什麼來阻止它?幫助很多appriciated!
編輯:我需要處理嚴重形成的HTML文件的信息提取目的。如果他們的創建者想要將某些文本變爲粗體,那麼即使該人創建了無效的html,我也必須將其考慮在內。
:
有一個Python版本在這裏出現@root - 您的瀏覽器以不同的方式從BeautifulSoup中恢復錯誤。修復HTML。 – Quentin 2012-07-06 14:23:28