0
對於一個具體的例子,我想把一個文本文檔分解成句子。捕捉任何字符的字符串,後跟標點符號: - 使用正則表達式匹配內容還是分隔符更好?
(.|\n)*?([!?.]\s+|[\n]{2,}|$)
[!?][\s]*|[.\n][!?\s]+[.!?\s]*
這標點符號/空白(分隔符句子之間的東西)匹配:我使用的是後續的正則表達式(可能仍然需要扭捏)考慮或換行符(全句 - 我想要的內容)
通常,哪種方法是首選?在我的具體情況下,我想跟蹤每個句子的開始和結束索引,所以我不能做一些簡單的事情,如String#split。
謝謝。
你能告訴樣本輸入和期望的輸出文本。 – sln
我認爲這些方法通常都不是首選,一切都取決於任務和條件。有時候,我認爲它只是沒有意義, –