我有一個畸形字符串的Python:
Muhammad Ali's fight with Larry Holmes
其中'
是一個省略號。
首先表示是什麼:'
?其次,我如何解析python中的字符串,以便它替換'
與'
我有一個畸形字符串的Python:
Muhammad Ali's fight with Larry Holmes
其中'
是一個省略號。
首先表示是什麼:'
?其次,我如何解析python中的字符串,以便它替換'
與'
Python標準庫的HTMLParser
能夠解碼字符串中的HTML實體。
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'
>>> print s
© 2010
>>> s = h.unescape('© 2010')
>>> s
u'\xa9 2010'
解決方案的範圍描述如下:http://fredericiana.com/2010/10/08/decoding-html-entities-to-text-in-python/
&#CHAR-CODE;
是一個特殊字符的HTML(也許在其他地方,但我不知道)的sytax。可能有這樣做更完整的方法,但你可以用簡單的替換:
mystring = "Muhammad Ali's fight with Larry Holmes"
print mystring.replace("'", "'")
產量:
拳王阿里與拉里·霍姆斯的鬥爭
這看起來像一個字符的代碼爲39(這可以很容易地解析和使用'CHR()'重新組裝一個HTML實體但是那裏。也是大量象符號的HTML實體,比如'&'('&'),你可能也想考慮一下。 – Kos
@All:我不知道如何搜索答案,因爲我不知道該怎麼做搜索。 – Bruce