驗證這些文檔的完整性的步驟是什麼? doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm
驗證文檔的完整性
或至少是其中的一些。通常在上傳到內容存儲庫時。
我猜inputStream始終是99,99%從MultiPart http請求中正確讀取,否則就會拋出異常並採取行動。但用戶可以上傳已損壞的文件 - 我是否使用第三方庫來檢查?我沒有在odftoolkit,itextpdf,pdfbox,apache poi或tika中看到類似的東西
你在找什麼樣的腐敗?商榷?偶然?單個字節損壞?文件被截斷了嗎?是否足以說「該文件看起來有點不安」,或者您是否只接受在Office 2003 build 12345或Office 2008 for Mac build 4321中聲明未打開的文件? – Gagravarr
我只是想知道如何處理TikaException,因爲解析是你可能會發現這個問題的地方,但是你會在解析過程中發生什麼樣的問題。在這種情況下應該做什麼?我真的對文檔的交付負責,這不像我將文件存儲在內容存儲庫中。我之前沒有處理文檔的經驗,您能給出一些數字嗎?概率?統計數據? – lisak