2012-05-16 67 views
0

我們正在開發一個打印服務器,允許用戶上傳DOC並通過HP ePrint打印出來。它需要支持頁面提取。從DOC提取頁面到新的DOC

我試圖使用宏(在Adobe Acrobat Reader Pro和MS Word的幫助下)將頁面提取到PDF中。但事實證明,PDF的大小可能比預期的大。

有沒有什麼辦法可以從DOC到DOC中提取頁面(沒有丟失格式 - 例如DOC中的表格),以便大小可以近似大小?

+0

我在幾年中還沒有碰過MS Office,但我個人嘗試了相當於VBA系統(現在是.net?)來提取頁面內容。即使這是可能的,我仍然可以預見到問題 - 文本通常從一個頁面流到另一個頁面,所以如果你想捕獲一個頁面isas,你必須抓取文本/圖形元素並將它們複製到一個新的手動。有趣的問題! – halfer

回答

1

這是一個困難的要求。這聽起來像是你一開始就遇到了兩個問題(大的PDF和格式丟失)。您應該更多地說出「提取」的含義以及爲什麼PDF是您的解決方案的一部分,因爲這與「上傳和打印」和「文檔到文檔」完全不同。這樣讀者會有更多的建議給你。

如果可能的話,我建議你嘗試從不同的角度來處理問題,因爲我懷疑你不可能實現一個好的,有效的,穩定的結果。一種可能的方法是將DOC轉換爲PDF,然後在打印之前使用iText或其他PDF庫來操作PDF。這真的取決於你想要達到什麼 - 你的提取/合併/轉換的細節。

+0

我同意這一點,並補充說,如果@ SkyEagle888想要保留格式,請不要使用PDF。這是一個很棒的格式,但是一旦你使用它,每個元素的意義就會消失 - 它只會變成一堆圖形和文本元素。 – halfer