我目前正在學習項目中從個人簡歷中提取個人姓名。姓名提取 - 簡歷/簡歷 - 斯坦福NER/OpenNLP
目前,我正在與斯坦福大學NER和OpenNLP合作,這兩種方法在開箱即用方面都取得了一定的成功,傾向於在「非西方」類型名稱(沒有針對任何人的攻擊)上掙扎。
我的問題是 - 定的普遍缺乏句子結構或上下文相對於一個人的名字在CV /簡歷,我是可能獲得通過創建一個CV語料庫一些類似於在名稱標識任何顯著的改善?
我最初的想法是,我可能有一句分裂一個更大的成功,除去明顯的文字和應用邏輯位,使對個人的名字最好的猜測。
如果一個名字出現在結構化的句子中,我可以看到培訓是如何工作的,但是作爲一個沒有語境的獨立實體(例如Akbar Agho),我懷疑無論培訓如何,它都會很困難。
有AI的水平,如果給予足夠的數據將開始制定一種模式,找到一個名字或者我應該也許只是去應用基於邏輯列提取的水平?
我會很感激的人的想法,意見和建議。
附註:我已經使用PHP與Appache提卡做從文件/ PDF的初始文本提取和我通過PHP /命令行斯坦福大學和OpenNLP試驗。
克里斯