識別考試中的問題（文本識別）

我有數以千計的pdf考試，我想將它的問題提取到標準格式（JSON，YML或XML）中。識別考試中的問題（文本識別）

他們都是選擇題：

問題1

誰是第一人在月球上行走？

一）尤里·加加林

B）艾倫·裏普利

C）尼爾·阿姆斯特朗

d）謝潑德

問題2

有多少行星在太陽系？

一）10

b）中12

c）中14

d）15

（...）

在JSON：

{ 
    "number": 1, 
    "wording": "Who as the first man to walk on the moon", 
    "alternatives": { 
    "a": Yuri Gagarin 
    "b": Ellen Ripley 
    "c": Neil Armstrong 
    "d": Shepard 
    } 
}

需要注意的是，由於這些考試是由不同的老師完成的，所以他們可能會略有不同。這意味着即使提取純文本，我也無法使用正則表達式匹配。（我試過和組合（用詞結構/替代結構）是巨大的）

例如：

「問題X（......）」。

「問題（X）（...）」。

「問題X - （...）」。

「X）（...）」。「012（X）...（X）」。

的替代方案也可能會改變：

一）（...）

一個。（...）

A-（...）

1）（...）

我想我需要某種形式的機器學習工具，以「教」的程序是什麼是一個問題，並找到它。

作爲替代方案，由於問題（印刷版）在物理上彼此相距很遠，我認爲我可以將這些PDF轉換爲圖像並使用某種形式的圖像識別。

可行嗎？是否有工具（包，庫，算法）來識別這些問題？

來源

2014-07-19 Victor Marconi

對於您的問題，沒有直接的機器學習解決方案。如果您的PDF格式爲1000，格式爲10s，那麼您最好爲每種格式編寫一個字符串解析器。如果你走上機器學習的道路，尋找解決方案的時間可能會更長。 Python應該有所幫助。

來源

2014-07-20 05:53:32

它實際上是10萬。但我想你是對的。我會嘗試一種半自動方法。解析，但也可以手動驗證和更正。 –

識別考試中的問題（文本識別）

回答

相關問題