surrogate-pairs

-1熱度

1回答

我有一個代理對，下面的例子： \ ud83d \ ude04 我想知道如何得到「1F604」任何樣本代碼的相應值的值？任何幫助將是可觀的？

1熱度

1回答

我正在尋找一種有效的方法來獲取JavaScript字符串並返回發生在該字符串中的所有scripts。必須正確處理包括需要代理對的「星」平面/非BMP字符的完整UTF-16。這可能是主要問題，因爲JavaScript不是UTF-16。它只需要處理代碼點，因此不需要複雜腳本或字形集羣的花哨意識。（這將是明顯的一些你啦。）例子： stringToIso15924("παν語"); 將返回類似

0熱度

1回答

從MS Word文檔檢索SurrogatePairs

我們已經編寫了一個應用程序，它將打開Microsoft Word文檔，讀取裏面的所有文本，然後將該數據發送到外部系統進行處理。這在過去運行良好，但由於我們已經接受了Unicode，所以我們在閱讀Word文檔時遇到了一些問題。我們看到的問題是我們無法顯示佔用多個代碼單元的任何字符，例如（代理對）或ā̈（字形集羣）。當我們試圖展示時，我們得到兩個??，並且用??，我們得到組成這個字形的每個單獨的角色

4熱度

1回答

如何驗證CharSequence的實例是否是Unicode標量值的序列？

我有一個java.lang.CharSequence的實例。我需要確定此實例是否爲Unicode scalar values（即，實例是否採用UTF-16編碼形式）的序列。儘管有java.lang.String的保證，但Java字符串不一定採用UTF-16編碼形式（至少不是根據最新的Unicode specification，當前是6.2），因爲它可能包含獨立的surrogate code uni

9熱度

2回答

將JavaScript字符串拆分成代碼點數組？（考慮到「替代對」而不是「字形串」）

將JavaScript字符串拆分爲「字符」可以輕鬆完成，但如果您關心Unicode（並且您應該關心Unicode），則會出現問題。 JavaScript本身將字符視爲16位實體（UCS-2 or UTF-16），但這不允許BMP (Basic Multilingual Plane)之外的Unicode字符。要處理BMP以外的Unicode字符，JavaScript必須考慮到「surrogate

0熱度

1回答

「代理對」概念如何在數據庫中起作用？

我的問題涉及到數據庫（特別是SQL Server）：在官方指南中提到，當使用「NVARCHAR/NCHAR」時，使用「每個字符2字節的存儲空間」和「如果需要代理對，一個角色將需要4個字節的存儲空間。「當需要代理對時，如何使用4字節？那麼「需求」如何與SQL Server進行交流，它將如何知道？我只是不確定這將如何解決 - 當我編程時，我會定義一些東西爲UTF-8,16或32.看起來SQL Serv

8熱度

1回答

如何在python2中執行surrogateescape

Python3將unicode行爲更改爲拒絕代理對，而不是python2。有一個問題here 但它不提供有關如何在python2還是怎麼做代孕逃生刪除代理對一個解決方案。 Python3例如： >>> a = b'\xed\xa0\xbd\xe4\xbd\xa0\xe5\xa5\xbd' >>> a.decode('utf-8', 'surrogateescape') '\udced\udc

0熱度

1回答

Java Xml轉換和代理

下面的代碼沒有正確地將輸入數據轉換爲XML。我這麼認爲是因爲我不希望變壓器生成輸出與非有效的xml字符（我在談論&）。下面是代碼： package com.example.test.formatter; import java.io.StringWriter; import javax.xml.parsers.DocumentBuilder; import javax.xml.parse

3熱度

1回答

提取NSString的第一個Unicode代碼點（BMP之外）的最簡單方法是什麼？

由於歷史原因，Cocoa的Unicode實現是16位的：它通過「代理對」處理高於0xFFFF的Unicode字符。這意味着下面的代碼是行不通的： NSString myString = @""; uint32_t codepoint = [myString characterAtIndex:0]; printf("%04x\n", codepoint); // incorrectly prin

13熱度

3回答

的Python：當它含有得到正確的字符串長度代理對

考慮在IPython的以下對話： In [1]: s = u'華袞與縕同歸' In [2]: len(s) Out[2]: 8 正確的輸出應該是7，但由於這七個中國文字的第五具有較高的Unicode碼點，它由UTF-8中的「代理對」表示，而不僅僅是一個簡單的代碼點，因此Python認爲它是兩個字符而不是一個。即使我使用unicodedata，它正確地返回代理對作爲單個碼點（\U0002