2010-03-28 28 views
3

在我工作的地方,我們有一個遺留文檔管理系統,由於各種原因,現在開發人員不支持它。我被要求研究提取這個系統中包含的文檔,最終導入到一個新的第三方系統中。逆向工程自定義數據文件

從跟蹤和過程監視我已經確定文檔圖像(主要是tiff文件)存儲在1.5GB的文件中。這些文件似乎是從特定的偏移量中讀取的,然後寫入一個tmp文件,然後通過Web應用程序將其提供給客戶端,然後將其刪除。

我想我正在尋找關於如何檢查這些包含tiff圖像的大文件的建議,並最終提取並將它們寫入單個文件。

+1

並沒有真正說明源代碼是否可用。是嗎?如果是這樣,那麼你應該能夠破解它來閱讀這些文件,這將成爲你的新轉換器的基礎。 – 2010-03-28 04:08:48

+0

悲哀的源代碼不可用,應用程序調用訪問這些文件中包含的數據的各種非託管dll。根據我目前收集的信息,我確定執行數據庫查詢(sp_getDoc ),即應用程序必須使用一些返回的數據來計算大文件的哪些字節包含請求的實際tiff文件。有兩個數字字段返回,看起來像他們可能涉及到文件的開始和結束位置。 – AdamW 2010-03-28 04:22:05

+0

爲什麼你不能通過自動向Web應用程序請求所有文件來獲取文件? – Gabe 2010-03-28 05:03:23

回答

1

是否以某種方式壓縮TIFF?如果沒有,那麼你的工作可能會非常簡單:從1.5G文件中拼接TIFF。

你能看到一個特定的1.5G文件(或它們的系列)的輸出嗎?如果是這樣,那麼你應該能夠將這些TIFF的字節看起來像是什麼樣子,如果它是未壓縮的。

如果字節看起來不在那裏,那麼嘗試一些標準的壓縮(zip,tar等)來查看是否匹配。

0

我會打開一個文件,尋找所需的偏移量,然後流入一個tiff對象(理想情況下,支持從內存或文件流)。那你就明白了。打開其他一些位,因爲可能有關該文檔的元數據可能對下一個系統有用。 「不支持開發者」的