2017-04-15 48 views
0

我有一些數據是有效的UTF-8。但是,它的一部分仍然是有效的UTF-8,顯然不是最初的UTF-8。它們也不是UTF-8編碼的Latin-1。如何拿mojibake並找出原始字符集是什麼?

我怎樣才能找出這些零件的原始字符集是什麼,以便我可以恢復有用的信息?或者我應該丟棄它們作爲損壞?

回答

1

這裏有mojibake轉換器。一個開源選項是https://github.com/dekellum/mojibake

gem install mojibake 
require 'mojibake' 
mapper = MojiBake::Mapper.new 
mapper.recover('“quotedâ€�') #=> '「quoted」' 
相關問題