我有數以千計的pdf考試,我想將它的問題提取到標準格式(JSON,YML或XML)中。識別考試中的問題(文本識別)
他們都是選擇題:
問題1
誰是第一人在月球上行走?
一)尤里·加加林
B)艾倫·裏普利
C)尼爾·阿姆斯特朗
d)謝潑德
問題2
有多少行星在太陽系?
一)10
b)中12
c)中14
d)15
(...)
在JSON:
{
"number": 1,
"wording": "Who as the first man to walk on the moon",
"alternatives": {
"a": Yuri Gagarin
"b": Ellen Ripley
"c": Neil Armstrong
"d": Shepard
}
}
需要注意的是,由於這些考試是由不同的老師完成的,所以他們可能會略有不同。這意味着即使提取純文本,我也無法使用正則表達式匹配。 (我試過和組合(用詞結構/替代結構)是巨大的)
例如:
「問題X(......)」。
「問題(X)(...)」。
「問題X - (...)」。
「X)(...)」。 「012(X)...(X)」。
的替代方案也可能會改變:
一)(...)
一個。 (...)
A-(...)
1)(...)
我想我需要某種形式的機器學習工具,以 「教」 的程序是什麼是一個問題,並找到它。
作爲替代方案,由於問題(印刷版)在物理上彼此相距很遠,我認爲我可以將這些PDF轉換爲圖像並使用某種形式的圖像識別。
可行嗎?是否有工具(包,庫,算法)來識別這些問題?
它實際上是10萬。但我想你是對的。我會嘗試一種半自動方法。解析,但也可以手動驗證和更正。 –