我有一個文本文件是使用OCR(光學字符識別)從圖像生成的。該文件包含信息記錄,其中每個記錄的一部分包含格式爲客戶名稱城市和州的文本。文本的樣品是如下NLP從給定文本中發現城市,州和名稱
本傑明米克斯迪凱特,GA
某些倍的文本可以跨多個行進行分割。文本將始終按給定的順序。我有一個城市和州的靜態列表,但仍然有一些記錄和州可以列出。州與市之間的逗號可能存在也可能不存在。城市和州的文本大部分將包含美國,英國,加拿大,澳大利亞等。
從我的朋友那裏我來了解自然語言處理可以解決從給定的輸入中挖掘文本的類別。我是NLP的noob,所以我在這裏的建議是什麼NLP技術我可以申請提取城市,州和名稱。
我已經使用了一個openNLP庫,看起來像apache openNLP似乎是很好的庫。
謝謝。