表情符號未編碼

我正在檢索Twitter推文並嘗試將它們保存到平面文件。我有以下代碼：表情符號未編碼

String jsonString = new Gson().toJson(tweets); 

byte[] utf8JsonString = jsonString.getBytes("UTF-8"); 

String utf8json = new String(utf8JsonString, "UTF-8"); 

System.out.println(utf8json);

輸出：

..."id":768260789744443392,"text":"#emojicity5 ?","source"...

通過表情符號（＃剛經過emojicity5）的出現爲？我試圖endode使用UTF-8，UTF-16BE，UTF-16LE，UTF-32BE和UTF-32LE，但無濟於事。該系統使用jdk 1.6和3.0.3 of twitter4j。我在這裏錯過了什麼？

來源

2016-08-24 mikej

可能問題更關係到控制檯中的字體？值應該是正確的，但是你的輸出不能顯示它。 – meistermeier

字符串已經包含Unicode，不需要轉換回相同的字符串。何時往返byte[]需要指出這些字節的編碼。

但問題是控制檯可能沒有像UTF-8這樣的Unicode編碼，甚至可能沒有字體中的表情符號。 System.out.println的問題。在這種情況下，System.out在其他編碼中不能表示表情符號，而是打印出問號。

你可以做什麼來檢查表情符號是否到達，是轉儲Unicode代碼點。

在java中8：

jasonString.toCodePoints() 
     .filter(cp -> cp >= 256) 
     .forEach(cp -> { 
      System.out.printf("U+%X = %s%n", 
       cp, Character.getName(cp)); 
     }); 

boolean containsEmoji(String s) { 
    return s.codePoints().anyMatch(cp -> 
     UnicodeBlock.of(cp).equals(UnicodeBlock.EMOTICONS)); 
}

來源

2016-08-26 15:51:19

表情符號未編碼

回答

相關問題