我想要拆分句子的話轉換成標籤(要在Mongodb
一個簡單的全文搜索),我不想保存逗號或冒號:如何拆分句子,讓只有ASCII字符
phrase = "hello, this is a simple description!"
pattern = "[\"\'\!\?\:\,\;]"
我已經試過這樣:
re.split(pattern, phrase)
Out[1]: ['hello', ' this is a simple description', ''] # as you can see, i've always blank characters.
我想刪除所有「非字母字符」,有phrase.replace(",", " ")
但僅替換一個字符,所以我怎麼使用正則表達式替換爲?像re.remove(pattern, phrase)
這樣的東西,是否存在一個循環,這是否會成爲服務器的繁重工作?
啊!!!那是我需要的!因爲我還會使用unicode字符(阿拉伯語,法語,tifinagh(amazigh)...) –