2017-06-26 24 views
0

我指的是「https://github.com/keensoft/alfresco-simple-ocr」在tiff和jpeg文件上執行OCR,但是會顯示「找不到拖車字典」,「無法讀取外部參照表」,「異常失敗(「錯誤:pdfinfo無法確定頁數,請檢查pdf輸入文件。\ n」)「儘管從jpeg或tiff文件轉換爲PDF文件可以正常工作,並且PDF文件在alfresco共享頁面上可見」但沒有OCR正在處理這些tiff和jpeg文件無法在tiff和jpeg文件上執行OCR

+0

嗨。你也可以看看我的項目(https://github.com/bchevallereau/alfresco-tesseract)。它基於Tesseract。 –

回答

1

基本上有很多工具用於在pdf文件上執行OCR。它也取決於該工具。在露天存在一個錯誤。它是一個庫下面是詳細說明。


創建一個名爲transformation.sh的文件,在添加命令之前,您必須在其中添加下面一行。如果您使用的是Windows,則需要相應地創建批處理文件。

未設置LD_LIBRARY_PATH

如果您沒有在腳本文件上面的設置,你將面對一個錯誤,而conversation.You可以找到下面的露天註冊問題alfresco.Its的鏈接,錯誤的詳細信息。

https://issues.alfresco.com/jira/browse/ALF-19946

PDF到PDF的談話是很好的鏈接如下解釋英寸

http://www.krutikjayswal.com/2016/07/ocr-on-pdf-file-in-alfresco.html

您可能需要修改源代碼TIFF交談。