比方說,我有以下幾點:句子抽取
- 句子的列表(不帶標點)
- 字的長字符串(不帶標點)
我的目標是將該字符串分割成幾個句子,排除不構成句子的單詞。
我打算想到一個專門的解決方案,但覺得它可能是一個衆所周知的問題(我的意思是一個問題,建議實施一個有效的現有算法,如最短路徑問題等...)
那麼,有沒有算法呢?
編輯: 例句:
hello
how are you
what do you want
are you hungry
do you want to eat
are you thirsty
do you want to drink
what is your name
good morning
good night
樣品輸入字符串:
do do how are you eat
所以,how are you
應該是輸出。
(輸入樣本可以是奇怪,因爲它是一個語音識別器輸出)
感謝。
可不可以給數據的一個例子 - 目前還不清楚,如果每條線將被視爲1句,例如 – 2013-05-09 15:55:09
@ alex23 什麼你的意思是受限制嗎?如果你的意思是語法,我認爲沒有。 – 2013-05-09 16:13:05
爲什麼不在句子中編譯正則表達式,然後在字符串中查找匹配項?看似簡單。 – dan 2013-05-09 19:58:30