在Java/Android中查找UTF-8字符串中的字符數

我試圖找出字符串存儲在UTF-8中的字符串長度。我嘗試以下方法：在Java/Android中查找UTF-8字符串中的字符數

String str = "मेरा नाम"; 
Charset UTF8_CHARSET = Charset.forName("UTF-8"); 
byte[] abc = str.getBytes(UTF8_CHARSET); 
int length = abc.length;

這使我的字節數組的長度，而不是字符數的字符串中。

我找到了一個顯示UTF-8字符串長度和字節長度的網站。假設我的字符串是「無符號」，那麼我應該將字符串長度設置爲8個字符，而不是22個字節。

任何人都可以請指導。

來源

2015-04-19 Sujit Devkar

簡單地您的程序保存爲utf-8 並做如下

 String str= "मेरा नाम"; 
     System.out.println(str.length());

O/P = 8

來源

2015-04-19 06:54:27 Prashant

8個字符，其中每個字符都是UTF-16（兩個字節）。這是Unicode文本如何存儲在字符串中，如'char []'。 –

我沒有檢查字符串長度函數，我將它轉換爲UTF-8，然後計算長度。你的答案有助於簡單地在文本上使用字符串長度，並且我得到了正確的答案。謝謝。 –

而不是轉換password[0]爲一個字節數組只需運行

password[0].length();

您也可以將bytearray轉換回字符串，然後在其上運行lenght方法以及。

byte[] abc = password[0].getBytes(UTF8_CHARSET); 
    String s1 = new String(abc, "UTF-8"); 
    System.out.println(s1.length());

來源

2015-04-19 07:02:46 nipuna777

String.length()實際上返回在UTF-16（其中兩個字節用於編碼的字符）編碼的字符串的字符數。然而，這也適用於大多數UTF-8字符，除非你有一個ASCII值大於127的字符。如果你想手工做的事情，而不編碼爲UTF-8，你可以做這樣的事情

public static int utf8Length(CharSequence sequence) { 
     int count = 0; 
     for (int i = 0; i < sequence.length(); i++) { 
      char ch = sequence.charAt(i); 
      if (ch <= 0x7F) { 
       count++; 
      } else if (ch <= 0x7FF) { 
       count += 2; 
      } else if (Character.isHighSurrogate(ch)) { 
       count += 4; 
       ++i; 
      } else { 
       count += 3; 
      } 
     } 
     return count; 
    }

這是UTF-8 spec。

來源

2015-04-19 07:16:58 mushfek0001

在http://rosettacode.org/wiki/String_length#Grapheme_Length_4看看：

import java.text.BreakIterator; 

public class Grapheme { 
    public static void main(String[] args) { 
    printLength("møøse"); 
    printLength(""); 
    printLength("J̲o̲s̲é̲"); 
    } 

    public static void printLength(String s) { 
    BreakIterator it = BreakIterator.getCharacterInstance(); 
    it.setText(s); 
    int count = 0; 
    while (it.next() != BreakIterator.DONE) { 
     count++; 
    } 
    System.out.println("Grapheme length: " + count+ " " + s); 
    } 
}

輸出：

Grapheme length: 5 møøse 
Grapheme length: 7 
Grapheme length: 4 J̲o̲s̲é̲

你要找的是不是字符串的長度BU grapeme長度。它爲您提供了「可見」字符的數量。

來源

2015-04-20 08:56:32

適用於我的表情符號。一個帶有五個表情符號的字符串（五個表情符號，在我的測試用例中佔用十個字符）返回五個（而不是實際的字符數爲10）。 –

最短的「長度」是Unicode 代碼點，作爲編號字符的概念，UTF-32。

在java中8：

int length = (int) string.codePoints().count();

之前Java類：

int length(String s) { 
    int n = 0; 
    for (int i = 0; i < s.length(); ++n) { 
     int cp = s.codePointAt(i); 
     i += Character.charCount(cp); 
    } 
    return n; 
}

甲Unicode代碼點可以在UTF-16被編碼爲一個或兩個char秒。

相同的Unicode字符可能有變音符號。可以將它們編寫爲單獨的代碼點：基本字母+零個或更多變音符號。爲了標準化的字符串一個（C =）壓縮碼點：

string = java.text.Normalizer.normalize(string, Normalizer.Form.NFC);

BTW數據庫的目的，UTF-16長度似乎更加有用：

string.length() // Number of UTF-16 chars, every char two bytes.

（在該示例中提到的UTF-32長度== UTF-16的長度。）

轉儲功能

甲評論者有一些意想不到的結果：

void dump(String s) { 
    int n = 0; 
    for (int i = 0; i < s.length(); ++n) { 
     int cp = s.codePointAt(i); 
     int bytes = Character.charCount(cp); 
     i += bytes; 
     System.out.printf("[%d] #%dB: U+%X = %s%n", 
      n, bytes, cp, Character.getName(cp)); 
    } 
    System.out.printf("Length:%d%n", n); 
}

來源

2015-04-20 09:30:51

對於之前的java，你可以使用's.codePointCount（0，s.length）' – liudongmiao

@liudongmiao謝謝，這對於java 8來說也是很好的。 –

對於我來說，這個答案中的length（）方法對於包含5個表情符號（笑臉）的字符串產生10的結果，而不是我預期的5。 –

在UTF-8 string.length減（）返回的字符數。如果你想獲得的字節數，你可以使用String.getBytes（）長度

例如：

字符串str = 「アンドリューは本當に悽いですだと」;

System.out.println（str.length（））; //顯示16對應16個字符 System.out.println（str.getBytes（）。length）; //顯示48對應於48個字節

來源

2017-01-31 15:19:13

在Java/Android中查找UTF-8字符串中的字符數

回答

相關問題