BeautifulSoup 大膽標籤失敗

<b> 
<p align="left">TXT1</p> 
</b> 
<p align="left"> 
<b>NR1</b> 
<b>TXT2</b> 
TXT3 
<b>TXT4</b> 
TXT5 
</p>

當我這樣做：

from BeautifulSoup import BeautifulSoup 
html = urllib.urlopen('url') 
htmlr = html.read() 
soup = BeautifulSoup(htmlr) 

print soup

我得到不同的東西：

<p align="left">TXT1</p> 
<p align="left">NR1 <b>TXT2</b> TXT3 <b>TXT4</b> 
TXT5</p>

我分析HTML文件的佈局，所以丟失標籤是相當令人沮喪的。爲什麼會發生這種情況，最好的辦法是什麼來阻止它？幫助很多appriciated！

編輯：我需要處理嚴重形成的HTML文件的信息提取目的。如果他們的創建者想要將某些文本變爲粗體，那麼即使該人創建了無效的html，我也必須將其考慮在內。

2012-07-06 root

該HTML無效。 內不能有。 BeautifulSoup正在嘗試執行錯誤恢復（就像瀏覽器一樣）。

停止它的最好方法是fix the HTML。

2012-07-06 14:13:31 Quentin

：

<p><b>hello world</b></p>

有一個Python版本在這裏出現@root - 您的瀏覽器以不同的方式從BeautifulSoup中恢復錯誤。修復HTML。 – Quentin 2012-07-06 14:23:28

-1

與quentin建議的一樣。

如果您希望元素爲粗體，則使用內聯CSS代替標記。

<p style='font-weight:bold;' align="left">TXT1</p> 
<p align="left"> 
<b>NR1</b> 
<b>TXT2</b> 
TXT3 
<b>TXT4</b> 
TXT5 
</p>

2012-07-06 14:20:03

我沒有創建這些文檔。我需要閱讀它們中的結構化文本！ – root 2012-07-06 14:24:19

您可以嘗試html5lib而不是BeautifulSoup。 Html5lib實現了HTML5解析器算法，因此它應該可以生成與現代瀏覽器相同的DOM。

聲明：我沒有嘗試html5lib解析器爲自己，所以我不知道它是目前的穩定水平。

2012-07-06 14:32:23 Alohci

謝謝，會試試看。 – root 2012-07-06 14:41:06

您也可以使用Beautiful Soup 4，它允許您使用html5lib解析文檔，然後在生成的數據結構上使用Beautiful Soup API。 – 2012-07-06 15:31:24

HTML Tidy似乎正確地修復了無效的HTML。他們有一個Web實現的在這裏：http://infohound.net/tidy/

我進入：

<b><p>hello world</p></b>

2012-07-06 14:44:57 usefulcat

BeautifulSoup <b>大膽</b>標籤失敗