2015-06-29 94 views
0

我有一個PDF文件,我想用於計算目的的矩陣。 PDF文件的每個頁面在矩陣的上下都有一些不需要的文本。如何在pdftotext的每個輸出頁面上運行命令?

我可以通過這個輸出PDF文本到文本。

pdftotext input.pdf -layout 

然後,我用這個剝去不需要的線。

sed -e '1, 19d' < input.txt | head -n -7 > output.txt 

但是,這隻適用於一頁。 PDF中有超過60頁。

pdftotext input.pdf -f 1 -l 1 -layout 

是否有可能運行在每一頁上的循環,進行轉換,然後貓文本文件一起:我可以通過運行提取pdftotext單頁?

+2

爲什麼不puting標記像deletefrom ## deleteto ##,並通過sed的 '/ MARKER1 /,/ MARKER2/d' 或類似的sed命令。花這個問題花費的時間可能足以通過文本編輯器解決問題 – josifoski

回答

1

一種方式做到這一點:

#! /bin/sh 
pages=$(pdfinfo input.pdf | awk '/^Pages:/ {print $2}') 
{ 
    let p=0 
    while [ $p -lt $pages ]; do 
     pdftotext input.pdf -f $p -l $p -layout 
     let p++ 
    done 
} >output.txt 
相關問題