2010-09-07 56 views
0

乾草處理圖像的數據或其他東西。 也許你們可以在我的項目中幫助我。 即時通訊使用pdfcreator作爲虛擬打印機打印到文件的一些圖像。 可以是pdf可以是任何類型的圖像。但我需要從中提取數據。 可以這樣做嗎?即時通訊使用C#。使用pdfcreator

+0

請詳細指定要提取什麼樣的數據。你想從哪個文件中提取:從PDFCreator創建的PDF文件中?從PDFCreator創建的圖像?要麼...??? – 2010-09-07 21:31:32

+0

我想從pdf或圖像中提取文本。也許發送到打印機的數據。即時通訊在文本中尋找一個數字。 – Guy 2010-09-08 04:38:57

回答

0

您無法從圖像中提取文本。

原則上,您可以從PDF中提取文本。

這裏有兩種使用自由軟件命令行工具的方法;也許他們中的一個適合您的需要:

  1. pdftotext.exe(的Foolabs' XPDF utilities部分)
  2. gswin32c.exe(ARTIFEX」 Ghostscript

例COMMANDLINES提取3-7頁的所有文字:

pdftotext:

pdftotext.exe^
    -f 3^
    -l 7^
    -epl dos^
    -layout^
    "d:\path with spaces\to\input.pdf"^
    "d:\path\to\output.txt" 

你想獲得文本輸出到標準輸出而不是文件? OK,試試這個:

pdftotext.exe^
    -f 3^
    -l 7^
    -epl dos^
    -layout^
    "d:\path with spaces\to\input.pdf"^
    - 

的Ghostscript: (請確認您的安裝有ps2ascii.ps在其LIB子目錄)

gswin32c.exe^
    -q^
    -sFONTPATH=c:/windows/fonts^
    -dNODISPLAY^
    -dSAFER^
    -dDELAYBIND^
    -dWRITESYSTEMDICT^
    -dSIMPLE^
    -f ps2ascii.ps^
    -dFirstPage=3^
    -dLastPage=7^
    "c:/path/to/input.pdf"^
    -dQUIET 

文本輸出將出現在標準輸出。如果您在cmd.exe窗口中進行測試,則可以通過將> /path/to/output.txt添加到命令中將其重定向到文件。