我一直在尋找斯坦福NER和使用的Java API它從一個文本文件中提取的郵政地址的思考。該文件可以是任何有郵政地址部分的文件,例如公用賬單,電費。使用斯坦福NER從文本文檔中提取地址?
所以我在想什麼的做法是,
- 定義郵寄地址使用位置和其他原始命名實體命名實體。
- 定義分割和其它子過程。
我想找到一個相同的示例流水線(詳細步驟是什麼要求),任何人都做過這個?建議歡迎。
我一直在尋找斯坦福NER和使用的Java API它從一個文本文件中提取的郵政地址的思考。該文件可以是任何有郵政地址部分的文件,例如公用賬單,電費。使用斯坦福NER從文本文檔中提取地址?
所以我在想什麼的做法是,
我想找到一個相同的示例流水線(詳細步驟是什麼要求),任何人都做過這個?建議歡迎。
要明確:一切歸功於誰的[java-nlp-user]郵件列表上的交互拉吉Vardhan(和約翰鮑威爾)。
拉吉Vardhan寫了關於計劃中的「在句子找到街道地址」工作:
這是我想到的辦法:
- 找到事件錨
- 從該事件節點中選擇SemanticGraph中的傳出邊緣,該事件節點與關係如*「prep-in」*或「prep-at」。
- IF的關係相關的值有POS標籤作爲NNP
一)查找相關的值的節點傳出,邊緣與關係等 如「NN」
B)連接所有這些節點按照句子中出現的次序遞增。
c)中得到的PRINT值作爲位置發生事件
這顯然是與某些假設,例如在句子中事件錨和位置之間的直接依賴 。
不確定這是否可以幫到你,但我想提一下它以防萬一。再次,任何信用應該去Raj Vardhan(和約翰鮑爾)。
你有沒有在文本地址的訓練集? –
@GaborAngeli是的,我確實有一個國家的文字地址,但沒有正確標記zip,city,addressline1,addressline2。 – yadab
在這種情況下,我的建議是收集以文字標記的地址的數據集,然後訓練類似斯坦福NER系統的東西。或者,從斯坦福NER和TokensRegexNER的組合構建一個基於啓發式規則的系統。 –