0
我有一些數據是有效的UTF-8。但是,它的一部分仍然是有效的UTF-8,顯然不是最初的UTF-8。它們也不是UTF-8編碼的Latin-1。如何拿mojibake並找出原始字符集是什麼?
我怎樣才能找出這些零件的原始字符集是什麼,以便我可以恢復有用的信息?或者我應該丟棄它們作爲損壞?
我有一些數據是有效的UTF-8。但是,它的一部分仍然是有效的UTF-8,顯然不是最初的UTF-8。它們也不是UTF-8編碼的Latin-1。如何拿mojibake並找出原始字符集是什麼?
我怎樣才能找出這些零件的原始字符集是什麼,以便我可以恢復有用的信息?或者我應該丟棄它們作爲損壞?
這裏有mojibake轉換器。一個開源選項是https://github.com/dekellum/mojibake:
gem install mojibake
require 'mojibake'
mapper = MojiBake::Mapper.new
mapper.recover('“quotedâ€�') #=> '「quoted」'