我有這樣的一個文本: 「這是句子1.這是句子2.是這個句子3?hello world!」Preg_split句子中保存標點符號
我使用此代碼將文本拆分爲句子並將它們插入到數組中。
$content = $page_data->post_content;
$sentence = preg_split('/[!?\.]\s?/', $content);
$sentence = array_map('trim', $sentence);
echo $sentence[0]; - **which renders this is sentence 1 - without the "."**
....
如何使用此代碼並保留標點符號?
泰:)
在Perl的'split'中,可以使用捕獲組保留分隔符s,但那些顯示爲單獨的元素。如果這就是你想要的,那麼你可以使用全局匹配來實現相同的結果。但是如果你想把它保留在句子的末尾,@codaddict有正確的概念。對於真實世界的數據,你需要更小心一點。是不是有一些現有的圖書館已經爲你做了NLP正確的句子拆分,如[Perl's Lingua :: Sentence](http://search.cpan.org/perldoc?Lingua::句子)?這就是你需要的。 – tchrist