2011-09-14 221 views
0

我需要創建一個將pdf文件轉換爲txt的C#或C++(MFC)應用程序。我不僅需要轉換,還需要刪除頁眉,頁腳,左邊空白處的一些垃圾字符等。因此,應用程序可以讓用戶設置頁邊距來切斷不需要的內容。實際上,我已經使用xpdf創建了這樣一個應用程序,但是當我嘗試將自定義標記插入提取的文本以保留斜體和粗體時,會出現一些問題。也許有人可以建議一些有用的東西?將pdf轉換爲文本

謝謝。

+0

有很多圖書館在那裏做你所描述的,但是我試過併成功的圖書館都是商業的......如果你想我可以發佈一些鏈接......通常他們會附帶源代碼樣本......這是一個選擇嗎? – Yahia

+0

我不確定,我將不得不與我的經理討論...而且價格也很重要。當然,我更喜歡免費的東西:) – dpreznik

+0

那麼好運與任務。我試圖構建一個應用程序來從pdf中提取某些字符串。在我偶然發現由Adobe Acrobat生成的PDF文件之前,我也多多少少取得了成功,但這些文件並沒有真正符合Adobe當時發佈的規範。 – arne

回答

1

那裏有共享軟件和免費軟件。嘗試獲取它們的源代碼,或者按照它們的方式使用它們。

PDF規範的公開版本,可以發現here: Adobe PDF Specification

PDF共享軟件的讀者可以發現:PDF Reader source code @ SourceForge

+0

謝謝你的回答。但我需要更具體的東西。我看不到如何獲取代碼,另外我也沒有看到用C#或C++編寫的任何我需要的東西。 – dpreznik

0

請看Podofo。這是一個LGPL許可的庫,有許多強大的編輯功能。其中一個例子,txt2pdf IIRC,是一個好的開始:它顯示了基本的文本提取;從那裏你可以檢查pre(在pdf引擎中)或post(在文本中)過濾是否足以滿足你的目標。我沒有使用Pdf Hummus,但它也應該具備這些功能,雖然它不那麼簡單。