是否有將英文文檔拆分爲句子的好方法?我的意思是英文文件經常包括美國女士等,很難將它們分開。我們是否需要一個特殊的自然語言庫來實現這一目標?我懷疑我們需要它。試圖找出一種很好的方法來將英文文檔拆分爲C語言中的句子
謝謝。
是否有將英文文檔拆分爲句子的好方法?我的意思是英文文件經常包括美國女士等,很難將它們分開。我們是否需要一個特殊的自然語言庫來實現這一目標?我懷疑我們需要它。試圖找出一種很好的方法來將英文文檔拆分爲C語言中的句子
謝謝。
從技術上講,您需要完全理解英語來完成這項工作。
作爲一個體面的「幾乎」解決方案,您可以使用「以期限結束的事情」的字典,並在不會立即跟隨其中一個標記的期間進行分割。
如果每個句子都是以大寫字母開始並以句點結尾,那麼我將定義一個如上所述的句子,但包含> 1個單詞且不以(常用縮寫列表或正則表達式[a-zA-Z])結尾。 +)
您可以使用大量的NLP工具,如OpenNLP或Stanford CoreNLP提供一句探測器。他們可以處理像Mrs. U.S.A等先生的案例。
OpenNLP和Stanford CoreNLP都是用Java編寫的。
SharpNLP是C#(已移植)版本的OpenNLP。
謝謝你的幫助。看起來我需要一個庫來完成它。 – 2012-01-17 14:10:04
但當然,有些情況下縮寫也結束了一個句子。 「我需要和夫人交談」或者你的問題中的「等」! – tripleee 2012-01-17 07:37:28