如何包含重音的話我有一個UTF-8文本與大寫單詞在文本中:在正則表達式
La cinta, que hoy se estrena en nuestro país, competirá contra Hors la
Loi, de Argelia, Dogtooth, de Grecia, Incendies, de Canadá, Life above
all , de Sudáfrica, y con la ganadora del Globo de Oro, In A Better
World, de Dinamarca.
所需的輸出是替換以大寫字母開頭,以一個佔位符的所有字(即#NE#
),第一個詞除外。因此,所需的輸出看起來像是這樣的:
>>> import re
>>> def blind_CAPS_without_first_word(text):
... first_word, _, the_rest = text.partition(' ')
... blinded = re.sub('(?:[A-Z][\w]+\s*)', ' #NE# ', the_rest)
... return " ".join([first_word, blinded])
...
>>> text = "La cinta, que hoy se estrena en nuestro país, competirá contra Hors la Loi, de Argelia, Dogtooth, de Grecia, Incendies, de Canadá, Life above all , de Sudáfrica, y con la ganadora del Globo de Oro, In A Better World, de Dinamarca."
>>> blind_CAPS_without_first_word(text)
[出]:
的La辛塔,闕HOY SE estrena連接NUESTRO
La cinta, que hoy se estrena en nuestro país, competirá contra #NE# la #NE# , de #NE# , #NE# , de #NE# , #NE# , de #NE#, #NE# above all , de #NE# , y con la ganadora del #NE# de #NE# , #NE# A #NE# #NE# , de #NE# .
我使用正則表達式如下嘗試país,competirácontra#NE# la#NE#,de#NE#,#NE#,de#NE#,#NE#,de#NE#á,#NE# 首先,de#NE#áfrica, y con con ganadora del#NE#de#NE#,#NE#A#NE##NE#,de#NE#。
但在使用時\w
,例如正則表達式沒有考慮重音字符Canadá
- >#NE# á
; Sudáfrica
- >#NE# áfrica
。 我該如何解決這個問題?如何在我的正則表達式中包含重音詞?它需要是Canadá
- >#NE#
; Sudáfrica
- >#NE#
。
我想如果忽略像A
這樣的單個字符單詞仍然是A
就沒關係。除非有解決這個問題。
我不知道爲什麼它不能取代'La'? –
,因爲它需要跳過第一個單詞,因此'str.partition()' – alvas