-1

我目前正在學習項目中從個人簡歷中提取個人姓名。姓名提取 - 簡歷/簡歷 - 斯坦福NER/OpenNLP

目前,我正在與斯坦福大學NER和OpenNLP合作,這兩種方法在開箱即用方面都取得了一定的成功,傾向於在「非西方」類型名稱(沒有針對任何人的攻擊)上掙扎。

我的問題是 - 定的普遍缺乏句子結構或上下文相對於一個人的名字在CV /簡歷,我是可能獲得通過創建一個CV語料庫一些類似於在名稱標識任何顯著的改善?

我最初的想法是,我可能有一句分裂一個更大的成功,除去明顯的文字和應用邏輯位,使對個人的名字最好的猜測。

如果一個名字出現在結構化的句子中,我可以看到培訓是如何工作的,但是作爲一個沒有語境的獨立實體(例如Akbar Agho),我懷疑無論培訓如何,它都會很困難。

有AI的水平,如果給予足夠的數據將開始制定一種模式,找到一個名字或者我應該也許只是去應用基於邏輯列提取的水平?

我會很感激的人的想法,意見和建議。

附註:我已經使用PHP與Appache提卡做從文件/ PDF的初始文本提取和我通過PHP /命令行斯坦福大學和OpenNLP試驗。

克里斯

回答

0

我猜你可能會提高姓名識別,如果你創建一個CV語料庫,這也取決於你的陰莖的大小(你可以通過收集CV爬行等網站語料庫)。

利用數據挖掘可能是,在我看來,你最好的選擇。我不清楚Apache Tika提出了哪些選擇,但是關於CV佈局的信息越多越好。例如,模式應該可能依賴於這樣一個事實,即姓名位於文檔的頂部,並接近出生日期/婚姻狀況/圖像/地址。

在這種情況下,你將不會有任何更多的順序標籤的情況下(如斯坦福NER一樣):在簡歷中,名字通常不是由文字環繞。它應該最可能是模式可以轉換爲(數字或二進制)屬性的候選文本片段的分類任務。

模式提取器可以很容易地找到或實現,應該被視爲機器學習之前的預處理。不要忘記,也使用名字和姓氏(以及頻繁的前綴/後綴:-son,-vitch,-man,Ben-,de等)列表,這些確實是不可避免的標準來決定哪些片段是可能是一個名字。由於其他姓名經常出現在簡歷中,這就是爲什麼我相信使用佈局也應該是一個重要特徵。

我很想知道哪些功能是高效的......你能告訴我們嗎?

1

我對這個問題的2分錢小費。

因此,堅持使用上面列出的NER標籤將成爲我的第一塊障礙,如果我可以在那裏識別出這些東西,那麼中提琴,如果不是,那麼我建議你去做一個基於規則的方法。 當我們談論簡歷時,候選人的姓名通常在簡歷的前10%行中。在許多情況下,它還跟着「名稱:Ankit Solanki」如果失敗嘗試找到電子郵件地址並與您從簡歷中的其他文本獲得的不同NP對相匹配,那麼您找到的匹配度最好的那個成爲你的名字,因爲在大多數情況下,像簡歷這樣的專業用戶的電子郵件地址將有他們的名字,例如john.mayer89abc.com將被清理到john.mayer然後經過一個算法找到最近的名詞短語對清潔的電子郵件名稱。

讓我知道你的想法。

最佳,

ANKIT