4
我有一個網頁抓取工具,它將論壇問題分解成單個單詞並將其寫入文本文件。單詞存儲在一個元組列表中。每個元組都包含這個詞和它的頻率。是這樣的...Python:使用正則表達式從字符串中去除 u200b
[(u'move', 3), (u'exploration', 4), (u'prediction', 21),
(u'find', 5), (u'user', 2), (u'interface', 2), (u'pleasant', 2),
(u'am', 11), (u'puzzled', 2), (u'find', 5), (u'way', 5),
(u'prediction', 21), (u'mode', 2), (u'have', 21),
(u'explored', 2), (u'file', 9), (u'Can', 7), (u'help', 6),
(u'Possible', 1), (u'bug', 2), (u'data', 31), (u'is', 17)
然而,在論壇上一些人用它打破我的代碼,因爲這個角色不再是一個Unicode空白字符\ u200b。
(u'used\u200b', 1)
打印出來並不會產生錯誤,但是寫入文本文件卻有問題。我發現string.strip()
和string.replace()
沒有幫助,所以我想知道如何使用正則表達式庫來擺脫該字符。我打算通過解析整個元組列表來找到它。
'分裂()'和'replace'不正確的方式,因爲你不會遭遇總是用'u200'。 – Kasramvd
@Kasramvd你可以給一個以上的字符作爲'strip'的參數。還有很多方法可以替換多個字符(例如使用正則表達式)。 – roeland
.replace在Python3.5中運行良好 –