0
所以我有一張發票,我需要做出報告。平均約250頁。所以我試圖創建一個腳本來提取發票的具體價值並製作報告。這是我的問題:根據列明智地分割文本文件
- 該發票是在pdf格式與它跨越兩列。在Linux命令中,我想使用'pdftotext'Linux命令將其轉換成多個文本文件(每個txt文件代表每個pdf頁面)。我該怎麼做
- 我認識到'pdftotext'命令將頁面的左邊部分和頁面的右邊部分分開,其間有21個空格。如何將數據的右側(連續讀取至少21個空格後識別)添加到文件末尾
- 由於文件很大,並且只有文件的最後幾頁,因此如何刪除所有文件這些文本文件在腳本中(不是手動),直到我讀了一個關鍵字(讓我們只是說關鍵字=開始發票)?
我知道這是很多問題,但我很困惑Linux命令可以做什麼。你們能指導我走向正確的方向嗎?由於
PS:我使用CentOS 5.2