2013-05-09 66 views
-1

比方說,我有以下幾點:句子抽取

  • 句子的列表(不帶標點)
  • 字的長字符串(不帶標點)

我的目標是將該字符串分割成幾個句子,排除不構成句子的單詞。

我打算想到一個專門的解決方案,但覺得它可能是一個衆所周知的問題(我的意思是一個問題,建議實施一個有效的現有算法,如最短路徑問題等...)

那麼,有沒有算法呢?

編輯: 例句:

hello 

how are you 

what do you want 

are you hungry 

do you want to eat 

are you thirsty 

do you want to drink 

what is your name 

good morning 

good night 

樣品輸入字符串:

do do how are you eat 

所以,how are you應該是輸出。

(輸入樣本可以是奇怪,因爲它是一個語音識別器輸出)

感謝。

+0

可不可以給數據的一個例子 - 目前還不清楚,如果每條線將被視爲1句,例如 – 2013-05-09 15:55:09

+0

@ alex23 什麼你的意思是受限制嗎?如果你的意思是語法,我認爲沒有。 – 2013-05-09 16:13:05

+1

爲什麼不在句子中編譯正則表達式,然後在字符串中查找匹配項?看似簡單。 – dan 2013-05-09 19:58:30

回答