我有它包含一個字符串,看起來像這樣的文件:在「Mr.」之前分割一個字符串或「夫人」
"TextMr. XxxxxMrs. YyyyyMrs. ZzzzzTextWordLady ZzzzzMr. Xxxxx"
現在,我想將它與Python分裂,使其看起來像這樣:
['Text', 'Mr. Xxxxx', 'Mrs. Yyyyy', 'Mrs. Zzzzz', 'Text', 'Word', 'Lady Zzzzz', 'Mr. Xxxxx']
目前我使用的是以下情況:
test2 = re.sub(r"([A-Z])", r" \1", data).split()
這給了我:
['Text', 'Mr.', 'Xxxxx', 'Mrs.', 'Yyyyy', 'Mrs.', 'Zzzzz', 'Text', 'Word', 'Lady', 'Zzzzz', 'Mr.', 'Xxxxx']
我知道這可能非常簡單,並且還閱讀了我可以找到的有關正則表達式和標題的所有主題,但沒有人似乎有同樣的問題。我會很高興如果有人能指出我正確的方向,並告訴我什麼是錯誤的(一次,我花了一個小時盯着一個代碼片段,不僅僅是發現我簡單地忘記了*
),因爲我會喜歡理解正則表達式。
模式將是'太太\' – hjpotter92
相關:[在正則表達式可選點(http://stackoverflow.com/questions/26907640/optional-dot-in-regex)也與先生/太太點問題。 – fedorqui
「ZzzzzText」如何拆分? –