2010-05-26 73 views
1

我正在開發一個項目,使用ImageMagick和ghostscript將OCR'd PDf轉換爲PNG並在瀏覽器中顯示,這樣我可以通過讓用戶查詢單詞來選擇圖像中的單詞。 Imagemagick與ghostscript一起工作良好。postscript to text

我有一個ps2text實用程序的問題,它不能可靠地使用pdf。任何人都可以提出一個好的工具來將postscript轉換爲Linux中的文本,這樣我就可以將它存儲在數據庫中。之後我使用一個自定義的書面搜索類來找出每個單詞的座標並突出顯示瀏覽器中的文本。

謝謝

回答

0

對於postscript,您應該使用ps2text。對於PDF,您可以使用pdftotext。