我必須爲分開的句子劃分文本。句子分區
好的。這看起來很簡單。
只需搜索「。」要麼 」?」要麼 」!」並將下一句添加到數組中。
但不幸的是並不那麼偉大和簡單。
我怎樣才能避免情況時:
華盛頓
將被分裂爲: 「華盛頓,d」 和 「C」。
OR
「。我們就出發了我們的老師,瑟曼女士的主持下,一個爆炸性的一個時間‘是分裂的:我們掀起了爆炸性下
’有一次我們的老師,太太」
而且
「瑟曼」
的椅子也許是含有「。」的縮寫詞的數據庫?
感謝您提前提示!
我必須爲分開的句子劃分文本。句子分區
好的。這看起來很簡單。
只需搜索「。」要麼 」?」要麼 」!」並將下一句添加到數組中。
但不幸的是並不那麼偉大和簡單。
我怎樣才能避免情況時:
華盛頓
將被分裂爲: 「華盛頓,d」 和 「C」。
OR
「。我們就出發了我們的老師,瑟曼女士的主持下,一個爆炸性的一個時間‘是分裂的:我們掀起了爆炸性下
’有一次我們的老師,太太」
而且
「瑟曼」
的椅子也許是含有「。」的縮寫詞的數據庫?
感謝您提前提示!
結賬NLTK。它爲您描述的問題提供了開箱即用的解決方案
關於使用http://search.cpan.org/~shlomoy/Lingua-EN-Sentence-0.25/lib/Lingua/EN/Sentence.pm –
句子**應該真的被'.','?'或'!'和至少一個空格字符分開。如果你可以保證你的輸入,那麼你可以分裂,而不是單個字符。 –
但是有這樣的縮略詞:夫人 –
如果句子被引用了'',會怎麼樣?是否應該包含引號? – lulalala