0
我的網站有純文本上傳功能。用戶可以上傳不同的編碼文件。我需要做一些預處理,但最後我想將這些文件的內容保存到數據庫上的UTF-8編碼文本列中。不是UTF-8文件+ java + UTF-8數據庫
我知道Java在這種情況下確實對用戶不友好,但實現它的最佳方法是什麼?
我的網站有純文本上傳功能。用戶可以上傳不同的編碼文件。我需要做一些預處理,但最後我想將這些文件的內容保存到數據庫上的UTF-8編碼文本列中。不是UTF-8文件+ java + UTF-8數據庫
我知道Java在這種情況下確實對用戶不友好,但實現它的最佳方法是什麼?
如果您的網站託管在* nix機器上,那麼最好的辦法就是無論您的用戶上傳什麼文件,都可以運行file
實用程序。它會給你一個最好的編碼猜測。然後,您可以使用它來讓recode
將您發現的任何格式轉換爲UTF-8。 這是非常容易出錯的,因爲猜測類型可能會失敗,尤其是如果文本很短,但這是最好的。
用戶在上傳時是否指定了編碼,還是您想要猜測? –
不,我的用戶沒有IT知識 – smas
好的,所以你應該尋找啓發式編碼檢測算法。其餘部分非常簡單 - Java對編碼不是「真正用戶不友好」。 –