我正在尋找一種有效的方法來獲取JavaScript字符串並返回發生在該字符串中的所有scripts。確定JavaScript中的所有ISO 15924腳本代碼字符串
必須正確處理包括需要代理對的「星」平面/非BMP字符的完整UTF-16。這可能是主要問題,因爲JavaScript不是UTF-16。
它只需要處理代碼點,因此不需要複雜腳本或字形集羣的花哨意識。 (這將是明顯的一些你啦。)
例子:
stringToIso15924("παν語");
將返回類似:
[ "Grek", "Hani" ]
我如何使用Node.js和一些Unicode的庫如XRegExp和unorm已經所以我不介意添加其他可能已經處理或緩解此功能的庫。
我不知道可以查找字符屬性(如腳本代碼)的JavaScript庫,因此這可能是問題的第二部分。
問題的第三部分只是爲了避免效率低下。
是否有任何可以引用UTF-16字符(通過其代碼)映射到腳本代碼的源(即表)? – 2013-05-09 01:51:16
我想我找到了一個Unicode字符的Script屬性如何與ISO 15924相關的故事的開始。http://unicode.org/reports/tr24/#Relation_To_ISO15924 – minopret 2013-05-09 01:52:25
@PaulS。我不知道是否有一些源代碼已經爲JavaScript準備好了,但在Unicode網站上有原始的[UnicodeData.txt](http://www.unicode.org/Public/UNIDATA/UnicodeData.txt)在過去用Python和Perl進行處理。 – hippietrail 2013-05-09 01:59:57