0
我有一個PDF文件,我想用於計算目的的矩陣。 PDF文件的每個頁面在矩陣的上下都有一些不需要的文本。如何在pdftotext的每個輸出頁面上運行命令?
我可以通過這個輸出PDF文本到文本。
pdftotext input.pdf -layout
然後,我用這個剝去不需要的線。
sed -e '1, 19d' < input.txt | head -n -7 > output.txt
但是,這隻適用於一頁。 PDF中有超過60頁。
pdftotext input.pdf -f 1 -l 1 -layout
是否有可能運行在每一頁上的循環,進行轉換,然後貓文本文件一起:我可以通過運行提取pdftotext單頁?
爲什麼不puting標記像deletefrom ## deleteto ##,並通過sed的 '/ MARKER1 /,/ MARKER2/d' 或類似的sed命令。花這個問題花費的時間可能足以通過文本編輯器解決問題 – josifoski