2014-01-05 47 views
-1

我有一個文本文件是使用OCR(光學字符識別)從圖像生成的。該文件包含信息記錄,其中每個記錄的一部分包含格式爲客戶名稱城市和州的文本。文本的樣品是如下NLP從給定文本中發現城市,州和名稱

本傑明米克斯迪凱特,GA

某些倍的文本可以跨多個行進行分割。文本將始終按給定的順序。我有一個城市和州的靜態列表,但仍然有一些記錄和州可以列出。州與市之間的逗號可能存在​​也可能不存在。城市和州的文本大部分將包含美國,英國,加拿大,澳大利亞等。

從我的朋友那裏我來了解自然語言處理可以解決從給定的輸入中挖掘文本的類別。我是NLP的noob,所以我在這裏的建議是什麼NLP技術我可以申請提取城市,州和名稱。

我已經使用了一個openNLP庫,看起來像apache openNLP似乎是很好的庫。

謝謝。

回答

2

如果你想從NLP開始,我認爲OpenNLP是一個不錯的選擇,另一個Java選項可以是StandfordNLP。如果你熟悉Python,那麼就去NLTK吧。

關於你的問題我認爲命名實體識別是你應該尋找的。如果首先學習NLP的基礎,然後使用這個特定的「技術」,那麼更好。 但是here你已經可以找到關於這個的OpenNLP章節;正如你所看到的,你也可以使用機器學習技術來訓練你的「代碼」,以便準確識別你想要的東西。
對於OpenNLP,已經存在一些經過培訓的位置,組織,人員等模型。 (here