2013-05-09 46 views
1

我正在尋找一種有效的方法來獲取JavaScript字符串並返回發生在該字符串中的所有scripts確定JavaScript中的所有ISO 15924腳本代碼字符串

必須正確處理包括需要代理對的「星」平面/非BMP字符的完整UTF-16。這可能是主要問題,因爲JavaScript不是UTF-16。

它只需要處理代碼點,因此不需要複雜腳本或字形集羣的花哨意識。 (這將是明顯的一些你啦。)

例子:

stringToIso15924("παν語"); 

將返回類似:

[ "Grek", "Hani" ] 

我如何使用Node.js和一些Unicode的庫如XRegExpunorm已經所以我不介意添加其他可能已經處理或緩解此功能的庫。

我不知道可以查找字符屬性(如腳本代碼)的JavaScript庫,因此這可能是問題的第二部分。

問題的第三部分只是爲了避免效率低下。

+0

是否有任何可以引用UTF-16字符(通過其代碼)映射到腳本代碼的源(即表)? – 2013-05-09 01:51:16

+0

我想我找到了一個Unicode字符的Script屬性如何與ISO 15924相關的故事的開始。http://unicode.org/reports/tr24/#Relation_To_ISO15924 – minopret 2013-05-09 01:52:25

+0

@PaulS。我不知道是否有一些源代碼已經爲JavaScript準備好了,但在Unicode網站上有原始的[UnicodeData.txt](http://www.unicode.org/Public/UNIDATA/UnicodeData.txt)在過去用Python和Perl進行處理。 – hippietrail 2013-05-09 01:59:57

回答

2

我回答了a similar question,以及至少有關。在this pastebin中,您將會返回一個(looooong)函數,它返回一個字符的腳本名稱。應該很容易修改它以適應字符串。

+1

適用於Guiness這個功能呢?謝謝! – 2015-12-27 20:11:27

+0

Lol no。我很確定有更長的... – dda 2015-12-28 07:36:49

相關問題