我在尋找的是一個C#解決方案,用於將商業應用程序中的PDF文檔數據導入到我們的數據庫中。我們的客戶將希望導入任何文檔。通常我會把它寫成完全不可能的,但是他們正在導入的文檔將會以他們自己的佈局佈局。C#解決方案用於渲染PDF和OCR生成的圖像?
我的計劃是將PDF渲染爲靜態圖像,然後允許用戶設置自己的模板,使用OCR在PDF中的預定義像素偏移處基本拉出文本。對於表格,它們定義表格的位置以及列和行大小的一系列更多值。然後,我們可以將該模板應用於該文檔類型。
所以,我真正想要的是兩個庫:一個將PDF轉換爲圖像,另一個轉換爲OCR這些圖像。
要求:
- 是純C#或有支持的C#包裝到本地DLL。
- 不支持進程 - 在這種情況下不允許基本上只創建命令行參數並啓動外部可執行文件的包裝。
- 就FOSS而言,允許我們通過支付許可費來免除正常的FOSS許可要求(即公佈我們的源代碼)。
我們當然不介意爲商業解決方案支付費用,但我們寧可不要爲每個軟件的單獨分配付費。
我知道這是一個相當具體的需求集合 - 可能足以讓一些人認爲這個問題太本地化了,但我希望有人可以建議一種方法和一些對我有幫助的庫,以及其他人在未來。
的東西,我已經研究過的PDF方:
- iTextSharp的 - 文件是一本書,你必須購買,而不是一個良好的開端。似乎沒有太多有用的文檔將PDF轉換爲公有領域的圖像。許可證是不透明的,看起來我們必須爲每個分配給我們的客戶付費。
- Docotic.Pdf - 僅供參考,對我們無用。
- pdftohtml - 再次,不會產生圖像。對於C#端口來說也是一團糟。
- PdfFileParser - 仍然不是我們所需要的。
- GhostScript - 幾乎完全是我們想要的,但需要分支到一個程序。
對於OCR方面,我可能會最終使用Tesseract,因爲Apache許可證是寬容的,它有很好的評論。如果有其他選擇,我也會對此感興趣。
使用PDF IFilter,您可以讀取PDF數據並將其放入數據庫中。示例Foxit提供了一個IFilter組件來閱讀PDF文檔。 – robertpnl
'iTextSharp'許可證是Affero GNU Public License。 – Oded
@ Robert-PaulHoving這不是一個真正包含文本的PDF解決方案嗎?這些PDF可能只是一個巨大的掃描圖像的包裝。我還需要能夠抓住特定位置的東西(像素偏移) - IFilter是否支持這一點? – Polynomial