我有一個包含文本,控制字符,數字,元音變音(德語)和其他utf8字符的字符串。從字符串中刪除不可打印的utf8字符(控制字除外)
我想剝離所有不屬於「語言的一部分」的utf8字符。像(非完整列表)「:/ \ßä,; \ n \ t」等特殊字符應全部保留。
可悲的是,stackoverflow刪除所有這些字符,所以我必須添加一張圖片(link)。
任何想法?非常感謝幫助!
PS:如果有人不知道的黏貼服務不殺死那些特殊字符我會愉快地上傳琴絃..我只是沒能找到一個..
[編輯]:我認爲正則表達式「\ P {Cc}」是我想要保存的所有角色。這個正則表達式是否可以被倒置,以便所有不匹配這個正則表達式的字符都被返回?
不知道,但它是可能的\ p {}東西倒立版本可以\ p {}的東西。如果沒有,您可以嘗試[^ \ P {something}]。 – Pshemo 2013-03-20 10:31:24
@Pshemo耶indead小寫似乎工作,因爲已經發布在下面..謝謝! – friesoft 2013-03-20 10:32:27
的可能的複製(http://stackoverflow.com/questions/7161534/fastest-way-to-strip-all-non-printable-characters-from- [最快的方式從一個Java字符串去除所有非打印字符] A-Java的字符串) – Stewart 2016-10-14 17:34:29