2012-02-27 20 views
0

我發現有很多工具可用於通過分割原始PDF文件PAGE WISE將大PDF文件分解爲更小的文件。例如,如果我有10頁PDF文檔,那麼我們可以打破原始PDF文件分成10個頁面。這是可能打破PDF文件小於明智的破壞?

但我想要一個類似的工具,打破小於頁面明智分裂的PDF文件。這意味着,我需要根據任何參數,如段落,部分,元素將PDF頁面拆分成不同的文檔...

例如,
如果有2頁有10段我的PDF文件,然後我想在PDF文件分割成基於參數段10單獨的PDF文件...

而且,我堅信PDF做不包含任何類似Open XML的結構。但我也懷疑


這些工具如何通過拆分頁面將pdf文件分解爲小的pdf文件?
他們用於頁面分割PDF文件的是什麼樣的機制?

那麼,有沒有辦法做我的工作?請給我你的寶貴建議?

回答

2

PDF是一種基於矢量的文檔描述語言。它是基於頁面的,因此每個頁面都獨立於下一個頁面。因此分頁智能很容易。與柵格圖像相反,您可以在PDF中獨立地提取小型子集,因此必須渲染整個頁面以瞭解小型子集的樣子。假設你有一個Page(黑色),其中包含一個複雜的形狀對象(這裏是一條線,但它可以是任何文本,形狀,圖像等),並且你想提取一個子集(紅色)。你將不得不首先找到在感興趣區域產生可見輸出的所有對象。然後你將不得不修改它們,以便它們被正確渲染(在這種情況下,從藍色點中計算綠色點,同時保留對象的形狀)。

Complex shape on a page

一種更簡單的方法是將包括整個頁面和剪輯的可視面積區域的尺寸。

你可以用pdfjam來做到這一點。檢查--trim/--offset/--delta命令以及自定義紙張大小(pdfjam網站上的示例6,7)。儘管如此,您仍然需要以某種方式計算感興趣區域的座標。