我有一個包含從不同的語言,如字符字符串:多語言字符串的正則表達式
en <chars in english> fr <chars in french> es <chars in spanish>
我需要從上面的字符串中提取只是在特定語言的字符串。我如何使用正則表達式或python2.6中的其他工具?
ps。它可能是不同的順序,如:en(。)es(。)it(。*),問題是es或fr或它 - 不在拉丁字符集中, - 這就是爲什麼常規正則表達式無法正常工作
我有一個包含從不同的語言,如字符字符串:多語言字符串的正則表達式
en <chars in english> fr <chars in french> es <chars in spanish>
我需要從上面的字符串中提取只是在特定語言的字符串。我如何使用正則表達式或python2.6中的其他工具?
ps。它可能是不同的順序,如:en(。)es(。)it(。*),問題是es或fr或它 - 不在拉丁字符集中, - 這就是爲什麼常規正則表達式無法正常工作
正則表達式使用unicode,你有幾種選擇你的字符串的方法。下面是一個例子,其中的字符串在語言代碼邊界(如「en」和「es」)上分割並放入列表中。然後是迭代列表並找到你想要的語言。
>>> text = u"en <chars in english> fr <chars in french> es <chars in spanish>"
>>> languages = set((u'en', u'fr', u'es'))
>>> re_languages = '|'.join(languages)
>>> splitter = re.compile(ur'\b({})\b'.format(re_languages))
>>> splitter.split(text)
[u'', u'en', u' <chars in english> ', u'fr', u' <chars in french> ', u'es', u' <chars in spanish>']
>>> parts=splitter.split(text)[1:]
>>> for i in range(0, len(parts),2):
... if parts[i] == 'es':
... print parts[i+1]
...
<chars in spanish>
>>>
或者你可以找到他們一次一個
>>> re.findall(r'\b(en|es|fr) (.*?)(?:(?= (?:en|es|fr)\b)|$)', text)
[(u'en', u'<chars in english>'), (u'fr', u'<chars in french>'), (u'es', u'<chars in spanish>')]
>>>
你如何定義在正則表達式的具體language''? – Mohammad
你有可靠的結構嗎?[英語單詞] - [西班牙語單詞] - ...'還是你必須猜測語言?這將是一項艱鉅的任務。 – Jasper
你能發表一個預期結果的例子嗎?它不是很清楚... –