2012-07-10 42 views
6

可能重複:
Decode HTML entities in Python string?如何使用Python替換HTML轉義字符?

我有一個字符串充滿了HTML轉義字符,如"”—

是否有任何Python庫爲我提供可靠的方法來替換所有這些轉義字符與它們各自的實際字符?

舉例來說,我希望所有的" s的「S代替

+0

[與string.replace](http://docs.python.org/library/string.html#string.replace) – 2012-07-10 02:59:12

+0

使用美麗的湯:HTTP:// LXML .de/elementsoup.html – sateesh 2012-07-10 03:00:43

回答

14

你想用這樣的:

from HTMLParser import HTMLParser 
parser = HTMLParser() 
html_decoded_string = parser.unescape(html_encoded_string) 

我也是看到很多的愛爲BeautifulSoup

from BeautifulSoup import BeautifulSoup 
html_decoded_string = BeautifulSoup(html_encoded_string, convertEntities=BeautifulSoup.HTML_ENTITIES) 

同樣存在以下這些問題的重複:

Decode HTML entities in Python string?

Decoding HTML entities with Python

Decoding HTML Entities With Python

+1

如果你知道它是重複的,爲什麼不標記而不是回答(rep)? – kapa 2012-07-10 07:35:07

+1

當人們不花時間去尋找他們問題的現有答案時,尤其是在這種情況下 - 當有這麼多確切的副本時,它很煩人。但是,我覺得社區有時候會有所改變。如果我們誤解了這個問題,那真的不是重複的呢?如果我回答這個問題會引發一個有意義的對話/線索,以不同的方向回答問題和答案呢?此外它並不真正關於聲譽,一旦問題被關閉或刪除相關的聲譽可能會被否定... – 2012-07-10 14:41:47

+1

我只是試圖警告你在StackOverflow這裏普遍接受的行爲規範。如果你似乎在乎一點,我會查找這個Meta問題,但如果你有興趣,我想你可以自己找到它。我不想爭論這件事,我只是信使,按你的意願去做:)。 – kapa 2012-07-10 15:06:47

相關問題