我有一個字符串列表(名詞短語),我想過濾掉所有有效的地理位置。其中大多數(不需要的位置名稱)都是國家或城市或州名。有什麼辦法可以做到這一點?是否有可用的開源查詢表,其中包含世界上所有的國家,州和城市?如何檢查給定的字符串是否爲有效的地理位置?
實施例所需的輸出: TREC4:假,維也納:真,部:假,IBM:假,蒙特利爾:真,新加坡:真
不像這篇文章:Verify user input location string is a valid geographic location? 我有很多這樣的字符串(~70萬),所以谷歌地理定位API可能不適合我。
怎麼樣:en-ner-location.bin從http://opennlp.sourceforge.net/models-1.5/或類似的東西http://stackoverflow.com/questions/18371092/stanford-named-entity-recognizer -ner-functional-with-nltk – alvas
我使用了NLTK ner識別。看起來不錯,我會試試看.. – Soumyajit