我試圖做我的標題說。我有一個約3萬個企業地址列表,並且我正在儘可能使每個地址儘可能均勻。刪除python中的字符串中的特殊字符和符號
至於去除奇怪的符號和字符,我發現了三個建議,但我不明白他們是如何不同的。
如果有人可以解釋這種差異,或提供洞察到更好的方式來標準化地址信息,請和謝謝!
address = re.sub(r'([^\s\w]|_)+', '', address)
address = re.sub('[^a-zA-Z0-9-_*.]', '', address)
address = re.sub(r'[^\w]', ' ', address)
他們都做幾乎同樣的事情,在他們刪除的內容稍有不同。不知道你認爲什麼是不古怪的,很難給出任何建議。正則表達式howto會告訴你什麼是不同的類別:https://docs.python.org/2/howto/regex.html#regex-howto – thebjorn
正則表達式的每個小組件都在這裏解釋(非常複雜,但可搜索! ):https://docs.python.org/2/library/re.html#regular-expression-syntax – JacobIRR