0

我有數以千計的pdf考試,我想將它的問題提取到標準格式(JSON,YML或XML)中。識別考試中的問題(文本識別)

他們都是選擇題:

問題1

誰是第一人在月球上行走?

一)尤里·加加林

B)艾倫·裏普利

C)尼爾·阿姆斯特朗

d)謝潑德

問題2

有多少行星在太陽系?

一)10

b)中12

c)中14

d)15

(...)

在JSON:

{ 
    "number": 1, 
    "wording": "Who as the first man to walk on the moon", 
    "alternatives": { 
    "a": Yuri Gagarin 
    "b": Ellen Ripley 
    "c": Neil Armstrong 
    "d": Shepard 
    } 
} 

需要注意的是,由於這些考試是由不同的老師完成的,所以他們可能會略有不同。這意味着即使提取純文本,我也無法使用正則表達式匹配。 (我試過和組合(用詞結構/替代結構)是巨大的)

例如:

「問題X(......)」。

「問題(X)(...)」。

「問題X - (...)」。

「X)(...)」。 「012(X)...(X)」。

的替代方案也可能會改變:

一)(...)

一個。 (...)

A-(...)

1)(...)

我想我需要某種形式的機器學習工具,以 「教」 的程序是什麼是一個問題,並找到它。

作爲替代方案,由於問題(印刷版)在物理上彼此相距很遠,我認爲我可以將這些PDF轉換爲圖像並使用某種形式的圖像識別。

可行嗎?是否有工具(包,庫,算法)來識別這些問題?

回答

0

對於您的問題,沒有直接的機器學習解決方案。如果您的PDF格式爲1000,格式爲10s,那麼您最好爲每種格式編寫一個字符串解析器。如果你走上機器學習的道路,尋找解決方案的時間可能會更長。 Python應該有所幫助。

+0

它實際上是10萬。但我想你是對的。我會嘗試一種半自動方法。解析,但也可以手動驗證和更正。 –