2015-05-22 80 views
-1

最近我收到了一些非常古老但非常有用的手寫筆記,爲了保護它們,我將它們掃描到PDF格式的文件中。我所擁有的是一個35頁的PDF,但是我想在開頭添加一個內容頁面,這樣我就可以使用第一頁來點擊我對特定主題的方式。掃描PDF的目錄頁面

更確切地說, 我想一個網頁,其中說

主題1

主題2

主題3 ...

每一個應該被鏈接到的網頁我選擇。

我已經探索了很多標準工具來幫助我,例如LibreOffice,pdftk等,但解決方案似乎不是以簡單的應用程序和幾次點擊的形式。我的直覺是,這將需要用適當的語言編寫的程序。我想這個計劃爲工作方式如下:

ProgramName Input.pdf CustomTOC.txt 

凡CustomTOC.txt可以是包含兩列,一列是標題,第二列是頁碼簡單的ASCII表。該程序的輸出將是另一個PDF文件,其中包含一個附加在Input.pdf開頭的頁面,其中包含一個超鏈接到正確頁面的目錄。

+0

這與編程有什麼關係?如果這只是您想使用標準軟件所做的事情,請在其他論壇(如superuser.com)上詢問。 –

+0

那麼,我做了很多搜索標準工具,並沒有找到任何答案。我強烈的懷疑是,答案會以用Python或類似語言編寫的自定義程序的形式出現。是的,我確實明白,這個問題似乎與編程無關,就像我設計的那樣。 截至目前,我正在研究涉及Python腳本的解決方案,一旦完成,我將發佈它。也許在此之前或之後,這裏的人可能想要提供更優雅的解決方案。 – Killer

+0

忘了補充,如果你確實認爲這個問題不屬於這裏,我可以將其標記爲刪除。除此之外,我可以在完成後發佈我的解決方案。請告訴我。 – Killer

回答

0

我已經設法解決這個問題,雖然我不認爲這是做到這一點的最好方法。我編寫了一個Python程序,它接受兩個必需的輸入 - 輸入PDF文件和'|'分隔的ASCII表格包含列和頁碼。第三個可選輸出可以是包含輸出的PDF文件的名稱。如果沒有提供,則重寫原始輸入文件。

代碼如何工作使用系統調用'pdftk'將PDF文件分解爲其組成頁面。寫一個.tex文件,其中包含帶有hyperref包的第一頁的\ listoffigures命令,確保它鏈接到數字。 .tex代碼的後面部分包含幾個數字插入語句,其中插入了與每個頁面相對應的PDF文件,只爲那些在提供的TOC表中存在條目的PDF提供標題。

爲什麼代碼不理想?它依賴太多的依賴關係。它依靠對pdftk軟件包的系統調用,它要求LaTeX也安裝在帶有圖形軟件包的機器上。在當前版本的代碼中,每個頁面上的PDF都有一些偏移量,我正在嘗試使用具有自定義邊距設置的幾何包進行解決。一旦解決此問題,我會嘗試發佈代碼。

更理想的解決方案。這不需要LaTeX,可以在Python中使用一些PDF庫來實現相同的效果。意見和建議歡迎!