surrogate-pairs

    2熱度

    1回答

    1)字符串中的高位和低位替代字符的順序是固定的嗎?我可以依靠它嗎?在Windows上進行實驗highSurrogate首先進入String(在String.charAt(int index)方面的較低索引處)。這在任何平臺(Linux等)上總是如此嗎?這是記錄的任何? int[] codePoint = { 0x1F71D }; String s = new String(codePoi

    1熱度

    2回答

    我正在編寫一些用於生成隨機字符串的代碼。結果字符串似乎包含無效的char組合。具體而言,我發現很高的代理人沒有跟隨低代理人。 任何人都可以解釋爲什麼發生這種情況?我是否必須明確地生成一個隨機低代理來跟隨高代理?我以爲這是不需要的,因爲我使用Character類的int變體。 這裏的測試代碼,這在最近的運行產生以下不好的配對: Bad pairing: d928 - d863 Bad pair

    1熱度

    1回答

    我無法找到明確的答案。 ECLIPSE IDE是否支持emojis?在堆棧溢出中,我已經閱讀了很多關於代理對的內容,但是我無法在此得到明確的答案。 我不得不閱讀文本文件中的字符,我使用FileInputStream。 是否有可能使用代理對處理表情符號?我想要使​​用選擇幾個蘋果emojis。這些具體的: 通過處理它們,我的意思是我想在文件中讀取時將它們識別爲特定的表情符號。 如果是這樣,有人可以給

    6熱度

    1回答

    我想更好地理解Delphi中的代理對和Unicode實現。 如果我請的Unicode串S的長度():=「具有」在Delphi,我會回來,8. 這是因爲,各個字符的長度[H],[A] ,[V]和[e]分別是2,3,2和1。這是因爲Ĥ有替代物,有另外兩個替代物,V有替代物,e沒有替代物。 如果我想返回字符串中的第二個元素,包括所有代理,[à],我該怎麼做?我知道我需要對單個字節進行某種測試。我使用例程

    1熱度

    2回答

    不在基本多語言平面(BMP)中的Unicode字符(代碼點)可能由兩個字符組成代碼單元),稱爲代理對。 'ab'是兩個代碼單元和兩個代碼點。 (所以兩個字符和兩個字符。) 'a'是三個代碼單元和兩個代碼點。 (所以三個字符和兩個字符)。 我的代碼不需要使用舊版本的JavaScript。 ES6或任何最現代的。 如何訪問最後一個字符,而不管它是否是星體字符? 將字符串拆分爲「除最後一個字符以外的所有

    2熱度

    2回答

    unicode的範圍究竟有什麼預期的語義字符在正則表達式的範圍,如果範圍內的一個或兩個端點是BMP之外?我觀察到下面的輸入行爲在Python 2.7和3.5不同: import re bool(re.match(u"[\u1000-\U00021111]", "\u1234")) 在我2.7我得到False,在3.5我得到True。後者對我有意義。前者或許是代理對\ud844\udd11扯到

    6熱度

    2回答

    通常我只會用str[i]之類的東西。如果str = "☀️"? str[i]失敗。 for (x of str) console.log(x)也失敗。它打印出總共4個字符,即使字符串中只有2個表情符號。 什麼是迭代每個字符我可以看到一個字符串(和換行符,我猜),沒有別的? 理想的解決方案將返回一個2個字符的數組:2個表情符號,沒有別的。聲明的重複,以及我發現的一堆其他解決方案,不符合此標準。

    7熱度

    2回答

    我正在研究F#中的一個次要項目,它涉及將現有的C#代碼移植到F#,而且我似乎遇到了兩種語言之間處理正則表達式的差異(我正在發佈這希望找出我只是做錯了什麼)。 這個次要功能只是使用正則表達式技巧here簡單地檢測代理對。下面是當前實現: let isSurrogatePair input = Regex.IsMatch(input, "[\uD800-\uDBFF][\uDC00-\uDF

    -1熱度

    2回答

    我們有一個應用程序寫成utf-8基本編碼,它支持utf-8 BMP(3字節)。但是,它需要支持代理對。 我讀過一些代碼字符在utf-8中不支持的地方。這是真的嗎? 如果是,那麼使我的應用程序具有utf-16的默認編碼而不是utf-8的步驟是什麼? 我沒有代碼片段,因爲整個應用程序是通過記住utf-8而不是替代字符來編寫的。 我需要在整個代碼中更改哪些項目才能獲得utf-8中代理對的支持。或者將默認

    1熱度

    1回答

    我試圖插入一個代理對(「」,\uD852\uDF62,從this example一樣U+24B62)到的MySQL。 的INSERT與轉義文字,通過this answer建議: INSERT INTO unicode_test (value) VALUES (''); -- or INSERT INTO unicode_test (value) VALUES (_utf8''); 失敗 E