我最近使用Adobe Acrobat Pro的OCR功能來處理日文漢字字典。輸出的總體質量總體上比我希望的要好一些,但是英文部分的文字界限往往已經消失。例如,這裏是從我的文件中的一行:在可能的英文單詞邊界上分割字符串
softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
我可以去走一走,到處插入缺少的字邊界,但是這將是增加什麼已經是一個龐大的任務。我希望可能存在可以分析文本的軟件,其中一些單詞一起運行,並將文本分割爲可能的單詞邊界。有這樣一個包嗎?
我使用的是Emacs,所以如果問題的包已經是Emacs包或者可以很容易地集成到Emacs中,那麼它會更加甜美,這樣我就可以簡單地將光標放在上面的一行上並重復調用某些命令,以可能的正確性降序排列字邊界上的行。