2015-12-22 48 views
9

我一直在尋找斯坦福NER和使用的Java API它從一個文本文件中提取的郵政地址的思考。該文件可以是任何有郵政地址部分的文件,例如公用賬單,電費。使用斯坦福NER從文本文檔中提取地址?

所以我在想什麼的做法是,

  1. 定義郵寄地址使用位置和其他原始命名實體命名實體。
  2. 定義分割和其它子過程。

我想找到一個相同的示例流水線(詳細步驟是什麼要求),任何人都做過這個?建議歡迎。

+0

你有沒有在文本地址的訓練集? –

+0

@GaborAngeli是的,我確實有一個國家的文字地址,但沒有正確標記zip,city,addressline1,addressline2。 – yadab

+1

在這種情況下,我的建議是收集以文字標記的地址的數據集,然後訓練類似斯坦福NER系統的東西。或者,從斯坦福NER和TokensRegexNER的組合構建一個基於啓發式規則的系統。 –

回答

1

要明確:一切歸功於誰的[java-nlp-user]郵件列表上的交互拉吉Vardhan(和約翰鮑威爾)。

拉吉Vardhan寫了關於計劃中的「在句子找到街道地址」工作:

這是我想到的辦法:

  1. 找到事件錨
  2. 從該事件節點中選擇SemanticGraph中的傳出邊緣,該事件節點與關係如*「prep-in」*或「prep-at」。
  3. IF的關係相關的值有POS標籤作爲NNP

一)查找相關的值的節點傳出,邊緣與關係等 如「NN」

B)連接所有這些節點按照句子中出現的次序遞增。

c)中得到的PRINT值作爲位置發生事件

這顯然是與某些假設,例如在句子中事件錨和位置之間的直接依賴 。

不確定這是否可以幫到你,但我想提一下它以防萬一。再次,任何信用應該去Raj Vardhan(和約翰鮑爾)。

+0

謝謝。我也會嘗試這一點,但如果位置分佈在多條線上,分割變得有點棘手。我會更新我的研究結果。 – yadab

+0

@yadab你是怎麼看待這個的?我期待着做類似的事情,不想重新發明輪子。 – Todd

相關問題