5
我有一些糟糕的OCR軟件生成的文本。什麼算法可以將字符分組爲單詞?
輸出包含單詞和空格分隔字符的混合,應該將其分組爲單詞。例如,
Expr e s s i o n Syntax
S u m m a r y o f T e r minology
應該已經
Expression Syntax
Summary of Terminology
什麼算法可以組字符成詞?
如果我用Python,C#,Java,C或C++編程,那麼哪些庫提供算法的實現?
謝謝。
使用一些nltk語料庫並檢查組合可能會有所幫助。不知道你最終會得到確切的結果。這種貪婪的做法可能會失敗,因爲這些詞是大詞彙的一部分。然而,沒有辦法確定性地選擇大的或部分的單詞。這可能是我猜測的一個起點。 – arunk2
我覺得你使用OCR的痛苦。你有沒有使用動態編程算法?最終的想法是讓程序做出如何分組的決定,並且可能必須以遞歸方式檢查這些決定,每次迭代檢查英語字典中的單詞以驗證它是否是有效的單詞。 – Miket25