我有許多美國學校年鑑的人臉肖像和名稱的掃描頁面。來自頁面的所有文本都是OCR化的並且每個頁面以多個版本收集:從非結構化年鑑文本中提取人名
的目標是,以確定哪些文本字符串代表的人的名字,並將其與人像有關。問題在於每一本年鑑都是獨一無二的,每一頁都可能是獨一無二的,所以沒有共同的模式可以應用(但可能有一些常見模式)。另一個問題是,除了名稱外,這些網頁還包含許多其他文字,收藏量也很大。上述
例子用大寫字母書寫的名字,這樣他們就可以很容易識別,但它不是常見的情況。
又如:
我想在幾個方向:
- 美國名稱的使用字典建設索引並搜索每個 單個單詞f從此索引中的頁面查找可能的名稱。
- 使用名稱 - 無意識識別。我試過
opennlp
Java庫,但是 它只適用於以大寫字母開頭的名稱。 也許其他圖書館將工作。 - 訓練一些神經網絡。這可能會比 前兩個選項更好嗎?
你可以建議哪些算法可以幫助解決這個問題?
(1)這是非常廣泛! (2)在第一個示例中,您可以使用面部檢測,然後使用性別識別,這使得更容易推理哪些名稱映射到哪個圖像(主要是行主要列主要排序)。 (3)在第二個例子中,我無法將這些名稱映射到圖像。在這種情況下,你的算法需要比我更強大。 **編輯:**在第二眼,我可以。所以我的推理再次僅僅基於(2)中提到的方法。 (4)旁註:你可以發佈這些嗎?如果這些是真實的年鑑,我國可能會不允許在這裏發佈這些信息。 – sascha
現在的主要目標是從文本中提取姓名(名字和姓氏)與人像相關似乎更容易。 –
那麼你如何在示例2中映射這些圖?這幾乎是50/50(或更糟糕的)猜測。 – sascha