2010-09-01 119 views
0

在我的項目中,我們需要使用虛擬打印機,然後捕獲文件(大部分時間位圖)並從中提取數據。並像這樣將其轉換爲xml。獲取數據發送到打印機

<document name="file://C:\DOCUME~1\ilanit\LOCALS~1\Temp\p0129600584.htm"> 

<lineXY x="0" y="0" height="1656" width="2275" /> 
+1

所以你問如何寫在C#虛擬打印機,或? – 2010-09-01 06:42:36

+0

其實沒有。我想知道如何將數據傳送到打印機。 如果我可以解析它? ,如果我使用pdfcreator DLL,我該如何解析(獲取數據)。如果你有一個很好的鏈接如何建立一個虛擬打印機將會很好 – guy 2010-09-01 07:14:01

+0

我根據你的意見更新了我的回覆。也許關於你想要做什麼的更多細節將有所幫助(文件來自哪裏,你需要什麼,爲什麼你需要這些信息,以後將存儲在哪裏等)。 – 2010-09-13 14:42:53

回答

0

是否正在尋找類似Redmon(與輸出到文件以及啓動應用程序一起使用)?如果是這樣,你可以使用它,或者也有其他人。 Redmon有點過時了,根據操作系統的不同,你可能會遇到問題。如果可以的話,在問題中添加更多細節和細節,因爲它有點混亂。

更新(根據註釋):如果源是PDF或其他文檔(即:Word),它具有實際文本而不僅僅是圖形(掃描/圖像)類型的數據,您可以使用Postscript驅動程序(類型1可能工作最好),然後在捕獲打印文件後提取文本。如果您不打算將打印文件用於實際輸出並只需要數據,則可以隨時嘗試Windows中的Generic Text驅動程序,因爲它將忽略graphcis並將文本放在輸出文件中。只要輸出是一致的,一個正則表達式應該能夠提取出你需要的東西。

如果數據本質上是圖形(如正在打印的掃描圖像),則需要捕獲打印作業,將其轉換爲圖形圖像(因爲它將是具有PCL或Postscript等的打印文件。 ),然後通過OCR引擎運行它以提取所需內容。

+0

好。可以說我們有某種圖像(pdf,jpeg,bitmap),我們需要從這個圖像中提取數據(某些數字)。我們首先想到的是將數據發送到打印機(可以是虛擬的),現在我們正在考慮解析圖像文件。你的想法請。 – guy 2010-09-13 13:36:41

+0

@guy:這與你第一次描述的(imo)有點不同。你在尋找一種OCR算法嗎? – Bobby 2010-09-13 14:51:53