2017-02-21 149 views
0

我必須解析從Web中獲取的一些Web數據。 Web內容很可能是我處理的任何問題的不同區域語言。但也有出現在某些字符串如從Python中的字符串中刪除奇怪的字符

我工作呢 8qîÚ4½-ôMºÝCQ'Dɬ)問+ R±}Ûýï7üÛ²ëlY& 53一些無​​效字符?|?8ïôóg/ ^ÿûêþIA#我¼ºy{ 5+B^ß¿ß~¾¿½|ÓûÆk.c¹~WÚ@ë¤KÈh4rF-G|!¹ÿ¬|a~μuÓñμ_»| THI 每天statstistics

我必須消除這種性格怪異和onyl提取有效字符串。我正在使用python。我用utf-8編碼每個字符串。

+7

這些可能不是奇怪的字符。你只是使用錯誤的編碼... –

+2

你如何定義一個「有效的字符串」? –

+0

@ juanpa.arrivillaga還是一個「奇怪」的角色? :) – DeepSpace

回答

1

如果你的意思是怪不-ascii的,你可以嘗試:

import string 
"".join(filter(lambda char: char in string.printable, s)) 

其中S是你的字符串。 這裏有一些你可以過濾的字符串常量: https://docs.python.org/3/library/string.html