2011-02-02 82 views
0

我正在研究一個應用程序,該程序需要我解析非結構化的 文本。我需要解析它的名稱,地址 - 區域,城市,國家和郵政編碼 。地址將是印度。解析非結構化文本的名稱和地址

樣品輸入: 「我是ABC在XYZ公司工作 我擅長網頁設計具有3年經驗 我住在kothrud,浦那-411038,馬哈拉施特拉邦。」

輸出: 名稱:ABC AREA:KOTHRUD 城市:PUNE STATE:MAHARASHTRA 郵編:411038

我打算使用Apache ConceptMapper解析各市州 爲此我將不得不建立自己的字典集,但我想 可以完成。對於郵政編碼,我可以使用正則表達式。我被卡在如何 解析名稱和區域。正則表達式可以用來獲取名稱和區域與 小黑客和很多模式,但我想知道是否有任何 更好的解決方案。

有沒有我可以查詢到的任何數據庫,這將返回地址?我 沒有看過谷歌地圖/地方,但你可以實現地址 與他們輕鬆解析?

任何輸入將不勝感激。

謝謝。

+0

你需要處理什麼環境?意思是,限制在美國地址或印度地址的地址?能夠限制於此將會非常有幫助。 – Jeffrey 2013-05-13 17:54:59

回答

0

Google Geocoding API可以幫助解決這個問題。如果未找到匹配項,它將返回給定地址的地圖座標或適當的狀態碼。