我們有很多文字(大部分是用英文書寫的),這些文字被錯誤地導入(來自我們無法控制的)。例如拆分字符串當沒有分隔符加入的詞
configuredincorrectly
- 到2個字configured
&incorrectly
RegardsJohn Doe
- 成字Regards
和命名實體John Doe
To: [email protected]:[email protected]:[email protected]
- 成3元組(To,[email protected])
,(CC,[email protected])
,(BCC,[email protected])
problem.Possible
- 成2字problem
&possible
我承認我們正在努力解決這裏的多個問題。人們很容易寫不可擴展的代碼每次我們試圖解決特定骯髒的文本方案時間如
- 正則表達式,
- 與string.replace(關鍵字,keywordwithSpace)
任何人都可以請我指向一個(部分)解決方案的問題1 & 2?
使用自然語言理解的解決方案將是最理想的。 我們的詞彙量有1000字左右,如[溝通,數據庫,硬件,網絡,問題,糾正,解決方案等]。有沒有一種方法可以「訓練」一個模型,以識別像hardwarefailure
這樣的詞真的意味着2個單獨的詞hardware
& failure
。
非常感謝提前!
你不能在這裏使用正則表達式.. – 2015-03-13 09:39:41