我有以下情況,我對編碼器沒有太多瞭解(我也不太瞭解bash)。我甚至沒有一個基礎工作bash腳本分享,所以任何幫助將不勝感激。ImageMagick將tiffs轉換爲帶有順序文件後綴的pdf
我有一個文件共享,其中包含文檔管理系統的tiffs(數千個)。目標是將多個文件tiff轉換爲單個文件pdf(最好是PDF/A 1a格式)。
目錄格式:
/Document Management Root # This is root directory
./2009/ # each subdirectory represents a year
./2010/
./2011/
....
./2016/
./2016/000009.001
./2016/000010.001
# files are stored flat - just thousands of files per year directory
文檔管理系統存儲與順序編號的文件名的TIFF格式與順序文件後綴一起:
000009.001
000010.001
000011.002
000012.003
000013.001
當一個文檔的每一頁由後綴代表。當創建新的非相關文檔時,後綴將重新啓動。在上面的例子中,000009.001
是一個單頁面tiff。文件000010.001
,000011.002
和000012.003
屬於同一文件(即,頁面全部相關)。文件000013.001
代表一個新的文件。
我需要保留多頁文檔的第一個文件的文件名,以便文件名可以與文檔管理系統數據庫交叉引用以獲取元數據。
的僞代碼,我想出是:
for each file in {tiff directory}
while file extension is "001"
convert file to pdf and place new pdf file in {pdf directory}
else
convert multiple files to pdf and place new pd file in {pdf directory}
但這似乎將有不管下一個文件就是將所有001文件的副作用。
任何幫助,非常感謝。
編輯 - 兩個答案都在下面的工作。第二個答案奏效,但是我沒有意識到我測試的數據集與上面的情況不同。
這成功地產生了您的樣本輸出相匹配的輸出。 –
這似乎已經做到了,但底部有一個黑色邊框,我無法擺脫。我修改了cmd ='convert'部分,如下所示:'cmd =「convert」$ 0「-fuzz 1%-trim + repage」; next}'。這似乎沒有什麼區別。我清理了其中一個創建的文檔(綠色邊框代表編輯疊加層):https://www.dropbox.com/s/bxhnrfro69zwzez/00000023.pdf?dl=0 –
這是一個不同的問題 - 這個問題是關於順序組合編號爲單一的PDF文件。我可以建議你問一個新問題,提供你的一個偏斜掃描(大概是?) - 最好至少有一些樣本文本,並問如何擺脫黑色? –