surrogate-pairs

    -1熱度

    1回答

    我有一個代理對,下面的例子: \ ud83d \ ude04 我想知道如何得到「1F604」 任何樣本代碼的相應值的值? 任何幫助將是可觀的?

    1熱度

    1回答

    我正在尋找一種有效的方法來獲取JavaScript字符串並返回發生在該字符串中的所有scripts。 必須正確處理包括需要代理對的「星」平面/非BMP字符的完整UTF-16。這可能是主要問題,因爲JavaScript不是UTF-16。 它只需要處理代碼點,因此不需要複雜腳本或字形集羣的花哨意識。 (這將是明顯的一些你啦。) 例子: stringToIso15924("παν語"); 將返回類似

    0熱度

    1回答

    我們已經編寫了一個應用程序,它將打開Microsoft Word文檔,讀取裏面的所有文本,然後將該數據發送到外部系統進行處理。這在過去運行良好,但由於我們已經接受了Unicode,所以我們在閱讀Word文檔時遇到了一些問題。 我們看到的問題是我們無法顯示佔用多個代碼單元的任何字符,例如(代理對)或ā̈(字形集羣)。當我們試圖展示時,我們得到兩個??,並且用??,我們得到組成這個字形的每個單獨的角色

    4熱度

    1回答

    我有一個java.lang.CharSequence的實例。我需要確定此實例是否爲Unicode scalar values(即,實例是否採用UTF-16編碼形式)的序列。儘管有java.lang.String的保證,但Java字符串不一定採用UTF-16編碼形式(至少不是根據最新的Unicode specification,當前是6.2),因爲它可能包含獨立的surrogate code uni

    9熱度

    2回答

    將JavaScript字符串拆分爲「字符」可以輕鬆完成,但如果您關心Unicode(並且您應該關心Unicode),則會出現問題。 JavaScript本身將字符視爲16位實體(UCS-2 or UTF-16),但這不允許BMP (Basic Multilingual Plane)之外的Unicode字符。 要處理BMP以外的Unicode字符,JavaScript必須考慮到「surrogate

    0熱度

    1回答

    我的問題涉及到數據庫(特別是SQL Server):在官方指南中提到,當使用「NVARCHAR/NCHAR」時,使用「每個字符2字節的存儲空間」和「如果需要代理對,一個角色將需要4個字節的存儲空間。「當需要代理對時,如何使用4字節?那麼「需求」如何與SQL Server進行交流,它將如何知道?我只是不確定這將如何解決 - 當我編程時,我會定義一些東西爲UTF-8,16或32.看起來SQL Serv

    8熱度

    1回答

    Python3將unicode行爲更改爲拒絕代理對,而不是python2。 有一個問題here 但它不提供有關如何在python2還是怎麼做代孕逃生刪除代理對一個解決方案。 Python3例如: >>> a = b'\xed\xa0\xbd\xe4\xbd\xa0\xe5\xa5\xbd' >>> a.decode('utf-8', 'surrogateescape') '\udced\udc

    0熱度

    1回答

    下面的代碼沒有正確地將輸入數據轉換爲XML。我這麼認爲是因爲我不希望變壓器生成輸出與非有效的xml字符(我在談論&)。 下面是代碼: package com.example.test.formatter; import java.io.StringWriter; import javax.xml.parsers.DocumentBuilder; import javax.xml.parse

    3熱度

    1回答

    由於歷史原因,Cocoa的Unicode實現是16位的:它通過「代理對」處理高於0xFFFF的Unicode字符。這意味着下面的代碼是行不通的: NSString myString = @""; uint32_t codepoint = [myString characterAtIndex:0]; printf("%04x\n", codepoint); // incorrectly prin

    13熱度

    3回答

    考慮在IPython的以下對話: In [1]: s = u'華袞與縕同歸' In [2]: len(s) Out[2]: 8 正確的輸出應該是7,但由於這七個中國文字的第五具有較高的Unicode碼點,它由UTF-8中的「代理對」表示,而不僅僅是一個簡單的代碼點,因此Python認爲它是兩個字符而不是一個。 即使我使用unicodedata,它正確地返回代理對作爲單個碼點(\U0002