我在寫一個bash腳本,需要解析包含特殊字符(如@!'ó
)的html。目前,我已經運行了整個腳本,並忽略或忽略這些查詢,因爲它們是以十進制Unicode形式從服務器返回的:'
。我已經想出瞭如何解析並轉換爲十六進制,並將它們加載到python中以將它們轉換回它們的符號,我想知道bash是否可以在本地執行最終轉換。在python簡單的例子:Bash相當於Python的字符串文字用於utf字符串轉換
print ur"\u0032" ur"\u0033" ur"\u0040"
打印出
[email protected]
能否實現猛砸同樣的結果?我已經看過iconv,但我不認爲它可以做我想要的,或者更可能我只是不知道如何。
這裏的一些相關信息:
Hex to UTF conversion in Python
這裏是預期的輸入輸出的一些例子。
Ludwig van Beethoven - 5th Symphony and 6th Symphony ''Pastoral'' - Boston Symphony Orchestra - Charles Munch
Ludwig van Beethoven - 5th Symphony and 6th Symphony ''Pastoral'' - Boston Symphony Orchestra - Charles Munch
АлисА (Alisa) - Мы вместе. ХХ лет (My vmeste XX let)
АлисА (Alisa) - Мы вместе. ХХ лет (My vmeste XX let)
你不能調用Python或perl從那個bash腳本來處理字符串? – mykhal 2010-07-07 00:51:33
近這樣做: '回聲 'А л и с А(阿利薩)' | perl -pe's&#(\ d +);(?{$ x = sprintf(「%04x」,int($ 1))})/ \ N {U + $ x}/g'' 不幸的是,如果出現'UnicodeEncodeError',則添加'reload(sys);};如果發生'UnicodeEncodeError',則會出現$ x'轉換的一些問題,因此unicode字符是錯誤的 – mykhal 2010-07-07 01:17:59