2017-10-10 102 views
1

我有許多美國學校年鑑的人臉肖像和名稱的掃描頁面。來自頁面的所有文本都是OCR化的並且每個頁面以多個版本收集:從非結構化年鑑文本中提取人名

  1. 非結構化文本文件。 Example
  2. Xml帶有每句話的座標。 Example
  3. 帶有每個單個字母的座標的Xml。 Example

Sample yearbooks page

的目標是,以確定哪些文本字符串代表的人的名字,並將其與人像有關。問題在於每一本年鑑都是獨一無二的,每一頁都可能是獨一無二的,所以沒有共同的模式可以應用(但可能有一些常見模式)。另一個問題是,除了名稱外,這些網頁還包含許多其他文字,收藏量也很大。上述

例子用大寫字母書寫的名字,這樣他們就可以很容易識別,但它不是常見的情況。

又如:

Sample yearbooks page Text/XML1/XML2

這裏是few more examples

我想在幾個方向:

  1. 美國名稱的使用字典建設索引並搜索每個 單個單詞f從此索引中的頁面查找可能的名稱。
  2. 使用名稱 - 無意識識別。我試過opennlp Java庫,但是 它只適用於以大寫字母開頭的名稱。 也許其他圖書館將工作。
  3. 訓練一些神經網絡。這可能會比 前兩個選項更好嗎?

你可以建議哪些算法可以幫助解決這個問題?

+0

(1)這是非常廣泛! (2)在第一個示例中,您可以使用面部檢測,然後使用性別識別,這使得更容易推理哪些名稱映射到哪個圖像(主要是行主要列主要排序)。 (3)在第二個例子中,我無法將這些名稱映射到圖像。在這種情況下,你的算法需要比我更強大。 **編輯:**在第二眼,我可以。所以我的推理再次僅僅基於(2)中提到的方法。 (4)旁註:你可以發佈這些嗎?如果這些是真實的年鑑,我國可能會不允許在這裏發佈這些信息。 – sascha

+0

現在的主要目標是從文本中提取姓名(名字和姓氏)與人像相關似乎更容易。 –

+0

那麼你如何在示例2中映射這些圖?這幾乎是50/50(或更糟糕的)猜測。 – sascha

回答

0

這可能聽起來很傻,但我的第一個想法:名姓似乎大寫

在一個更嚴重的是:小姐的xxx YYY或先生的xxx YYY爲正則表達式(即含「樹林」開始大寫), - 或者對所有單詞做出清晰的列表,過濾出來自詞典的意思(例如R package tidytext的意見)並檢查其餘部分,並結合定製的兩種方法。

我想探索數據這種方式會產生大量的您纔去了NNET需要的見解

+0

名稱不總是用大寫字母寫的問題。此外,頁面上的更多文本可以用與大寫字母相同的方式書寫。有時候,名字可能會在正常情況下發生,但學校團隊或其他事件可能會以大寫字母形式出現有先生小姐前綴並不常見。 –

1

事實上NER將是有益的,使用現有的軟件是好,但我建議,對於這樣一個子域(人名) ,使用可能的名字/姓氏列表作爲特徵和標準線索(例如,大寫字母,小姐/先生)來實現特設算法。

使用男性/女性特徵將姓名與肖像關聯起來肯定是一個好主意。

將兩者分開(名稱識別/人像匹配)作爲模棱兩可的過程會很好:它將允許在可能的假設中選擇最大化其他標準的那些:名稱與人像的數量nb,關聯佈局的規則性名字與肖像等

大多數常識,但我希望它有一點幫助!

PS不要忘記的情況下是不可能的姓名與肖像,通過似然的閾值相關聯,例如(乍一看這似乎是你的最後一張照片的情況?)

相關問題