我寫這個表達式(在Python 3):(?<![\u0410-\u042F])([.!?])(?=(\s)?(\s)?[\u0410-\u042F]|[\u04E8]|["]|[\u201C]|![0-9])
正則表達式拆分不止一次
我使用Python的re.split()
它拆分句子西里爾。他們被\n
分開。所以它應該拆分此:
Мамлекеттик айыптоочу Биринчи май райондук сотуна берген бул сунушун диний кастыкты ырбатпоо аракети менен негиздеди. Мусулмандарга акаарат келтирип жатат деген кайрылуу каттын негизинде УКМК Тезекбаевге каршы кылмыш ишин козгоп, сотко өткөргөн. Бул ишти бүгүн Биринчи май райондук соту карап бүттү жана өкүм эртең чыгарыларын маалымдады.
分離的句子:
Мамлекеттик айыптоочу Биринчи май райондук сотуна берген бул сунушун диний кастыкты ырбатпоо аракети менен негиздеди.
Мусулмандарга акаарат келтирип жатат деген кайрылуу каттын негизинде УКМК Тезекбаевге каршы кылмыш ишин козгоп, сотко өткөргөн.
Бул ишти бүгүн Биринчи май райондук соту карап бүттү жана өкүм эртең чыгарыларын маалымдады.
但出於某種原因期間(最後一個字符)放在一個新行!除了最後一個。
我看到他們說不要把"()"
約[.!?]
,但如果我這樣做,那麼標點符號被刪除。
想必你也分別在結果列表中打印每個元素,或者您正在使用'\ n'.join()',是否正確? –