0
我正在研究一個應用程序,該程序需要我解析非結構化的 文本。我需要解析它的名稱,地址 - 區域,城市,國家和郵政編碼 。地址將是印度。解析非結構化文本的名稱和地址
樣品輸入: 「我是ABC在XYZ公司工作 我擅長網頁設計具有3年經驗 我住在kothrud,浦那-411038,馬哈拉施特拉邦。」
輸出: 名稱:ABC AREA:KOTHRUD 城市:PUNE STATE:MAHARASHTRA 郵編:411038
我打算使用Apache ConceptMapper解析各市州 爲此我將不得不建立自己的字典集,但我想 可以完成。對於郵政編碼,我可以使用正則表達式。我被卡在如何 解析名稱和區域。正則表達式可以用來獲取名稱和區域與 小黑客和很多模式,但我想知道是否有任何 更好的解決方案。
有沒有我可以查詢到的任何數據庫,這將返回地址?我 沒有看過谷歌地圖/地方,但你可以實現地址 與他們輕鬆解析?
任何輸入將不勝感激。
謝謝。
你需要處理什麼環境?意思是,限制在美國地址或印度地址的地址?能夠限制於此將會非常有幫助。 – Jeffrey 2013-05-13 17:54:59