2014-10-10 14 views
-2

我有一個pdf文件,我需要從它得到小塊的數據。 它的結構是這樣的:將pdf轉換爲小塊數據(每頁有很多塊)?

第1頁:

問題1

......................... .............

................................. .....

問題2

.................................... ...

......................................

末頁

我想將問題1和問題2作爲單獨的html文件,其中包含文本和圖像。

我已經試過

pdftohtml -c pdffile.pdf output.html

而且我得到的文件與PNG圖片,但如何做我切圖像成小塊,以適應每個課題的大小(我想每一個問題分開成個人檔案)?

P.S.我有很多pdf文件,所以一個命令行工具會很好。

+0

查看本網站 - http://smallpdf.com/split-pdf,一旦你拆分的頁面,如果你需要轉換成JPEG圖像! – Aru 2014-10-10 04:31:53

+0

@Aru我忘了在問題中指定這個,我有很多pdf文件,所以命令行工具會很好。 – ahk 2014-10-10 04:36:46

+0

試試這個http://www.tiffsoftware.com/Batch-pdf-splitter.html或http://pdf-split.com/download,希望它可以幫助你 – Aru 2014-10-10 04:52:12

回答

1

我會盡力給你一個關於如何去做的方法。您提到,您的PDF文檔中的每個頁面可能有多個問題,基本上每個問題都需要一個HTML文件。

如果pdftohtml適合您,這很好,但我還發現另一個不錯的command line utility,您可能需要try out

好了,假設你有從您最初有PDF轉換的HTML文件,你可能需要使用csplitawk將文件拆分成根據你的情況分隔符「問題」的多個文件。 (注意 - 邊和csplitawk Linux特有的UTILITES,但我敢肯定有替代品,如果你是在Windows或MAC我沒有具體試過下面的代碼)

relevant SO Post

csplit input.txt'/^Question$/' '{*}' 

awk '/Question/{filename=NR".txt"}; {print >filename}' input.txt 

所以,假設這個工程,你將有一對破碎的 html文件。 破碎,因爲它們會因分裂後懸掛<>或其他一些零散HTML元素而被unsanitized。

所以,你可以通過保存的初始.html.txt,特別是去除htmlheadbody元素,並通過怎樣的程序轉換成pdfhtml一般結構會啓動。我相信你會看到一個關於字符串'Quetion'如何包裝在一個元素中的模式,並且你可以照顧。這就是爲什麼我在代碼片段中提到.txt文件的原因。

基本上你會得到一堆只帶有html內容的文本文件,而不是HTML文件通常的開始標籤,因爲我們最初刪除了這些文件。然後,它只是一個讀取每個文件,只是照顧包圍字符串「問題」的元素和添加內容周圍的htmlheadbody元素,並將其保存爲文件.html的事。你可以用你選擇的任何支持文件讀寫的編程語言來做到這一點(這將是一個有趣的練習)

我希望這可以讓你開始正確的方向。