如何在pdftotext的每個輸出頁面上運行命令？

我有一個PDF文件，我想用於計算目的的矩陣。 PDF文件的每個頁面在矩陣的上下都有一些不需要的文本。如何在pdftotext的每個輸出頁面上運行命令？

我可以通過這個輸出PDF文本到文本。

pdftotext input.pdf -layout

然後，我用這個剝去不需要的線。

sed -e '1, 19d' < input.txt | head -n -7 > output.txt

但是，這隻適用於一頁。 PDF中有超過60頁。

pdftotext input.pdf -f 1 -l 1 -layout

是否有可能運行在每一頁上的循環，進行轉換，然後貓文本文件一起：我可以通過運行提取pdftotext單頁？

來源

2015-06-29 Aditya Salapaka

爲什麼不puting標記像deletefrom ## deleteto ##，並通過sed的 '/ MARKER1 /，/ MARKER2/d' 或類似的sed命令。花這個問題花費的時間可能足以通過文本編輯器解決問題 – josifoski

一種方式做到這一點：

#! /bin/sh 
pages=$(pdfinfo input.pdf | awk '/^Pages:/ {print $2}') 
{ 
    let p=0 
    while [ $p -lt $pages ]; do 
     pdftotext input.pdf -f $p -l $p -layout 
     let p++ 
    done 
} >output.txt

來源

2015-06-29 07:25:36

如何在pdftotext的每個輸出頁面上運行命令？

回答

相關問題