將pdf轉換爲小塊數據（每頁有很多塊）？

-2

我有一個pdf文件，我需要從它得到小塊的數據。它的結構是這樣的：將pdf轉換爲小塊數據（每頁有很多塊）？

第1頁：

問題1

......................... .............

................................. .....

問題2

.................................... ...

......................................

末頁

我想將問題1和問題2作爲單獨的html文件，其中包含文本和圖像。

我已經試過

pdftohtml -c pdffile.pdf output.html

而且我得到的文件與PNG圖片，但如何做我切圖像成小塊，以適應每個課題的大小（我想每一個問題分開成個人檔案）？

P.S.我有很多pdf文件，所以一個命令行工具會很好。

來源

2014-10-10 ahk

查看本網站 - http://smallpdf.com/split-pdf，一旦你拆分的頁面，如果你需要轉換成JPEG圖像！ – Aru 2014-10-10 04:31:53

@Aru我忘了在問題中指定這個，我有很多pdf文件，所以命令行工具會很好。 – ahk 2014-10-10 04:36:46

試試這個http://www.tiffsoftware.com/Batch-pdf-splitter.html或http://pdf-split.com/download，希望它可以幫助你 – Aru 2014-10-10 04:52:12

我會盡力給你一個關於如何去做的方法。您提到，您的PDF文檔中的每個頁面可能有多個問題，基本上每個問題都需要一個HTML文件。

如果pdftohtml適合您，這很好，但我還發現另一個不錯的command line utility，您可能需要try out。

好了，假設你有從您最初有PDF轉換的HTML文件，你可能需要使用csplit或awk將文件拆分成根據你的情況分隔符「問題」的多個文件。（注意 - 邊和csplit是awk Linux特有的UTILITES，但我敢肯定有替代品，如果你是在Windows或MAC我沒有具體試過下面的代碼）

從relevant SO Post：

csplit input.txt'/^Question$/' '{*}' 

awk '/Question/{filename=NR".txt"}; {print >filename}' input.txt

所以，假設這個工程，你將有一對破碎的 html文件。破碎，因爲它們會因分裂後懸掛<或>或其他一些零散HTML元素而被unsanitized。

所以，你可以通過保存的初始.html爲.txt，特別是去除html，head和body元素，並通過怎樣的程序轉換成pdf的html一般結構會啓動。我相信你會看到一個關於字符串'Quetion'如何包裝在一個元素中的模式，並且你可以照顧。這就是爲什麼我在代碼片段中提到.txt文件的原因。

基本上你會得到一堆只帶有html內容的文本文件，而不是HTML文件通常的開始標籤，因爲我們最初刪除了這些文件。然後，它只是一個讀取每個文件，只是照顧包圍字符串「問題」的元素和添加內容周圍的html，head和body元素，並將其保存爲文件.html的事。你可以用你選擇的任何支持文件讀寫的編程語言來做到這一點（這將是一個有趣的練習）

我希望這可以讓你開始正確的方向。

來源

2014-10-10 06:26:11

將pdf轉換爲小塊數據（每頁有很多塊）？

回答

相關問題