2010-05-18 49 views

回答

2

CPAN給我「Unicode::Japanese」。希望這有助於開始。你也可以看Character Encodings in Perl和perl文檔的文章unicode瞭解更多信息。

+0

s/artical/article/ – 2010-05-18 15:50:37

+0

布拉德,你有編輯權力。 :) – 2010-05-18 22:58:09

+0

爲什麼 - 是嗎?這是唯一的錯誤:)。 – Space 2010-05-20 04:57:17

1

請參閱http://p3rl.org/UNI

use Encode qw(decode encode); 
my $bytes_in_sjis_encoding = "\x88\xea\x93\xf1\x8e\x4f"; 
my $unicode_string = decode('Shift_JIS', $bytes_in_sjis_encoding); # returns 一二三 
my $bytes_in_utf8_encoding = encode('UTF-8', $unicode_string); # returns "\xe4\xb8\x80\xe4\xba\x8c\xe4\xb8\x89" 

對於命令行批量轉換,使用piconv

piconv -f Shift_JIS -t UTF-8 <infile> outfile 
0

首先,你需要找出源文本的編碼,如果你不知道它了。

日本最常見的編碼是:

  1. euc-jp:(常用於Unix系統和一些網頁等比shift-jis更大Kanji報道)
  2. shift-jis(微軟還增加了一些擴展,按住Shift JIS被稱爲cp932,這是經常使用的非Unicode Windows程序)
  3. iso-2022-jp是一個遙遠的第三

許多語言的通用編碼轉換庫是iconv(請參閱http://en.wikipedia.org/wiki/Iconvhttp://search.cpan.org/~mpiotr/Text-Iconv-1.7/Iconv.pm),它支持many other encodings以及日語。

0

這個問題對我來說似乎有點含糊,我不確定你在問什麼。通常你會用這樣的東西:

open my $file, "<:encoding(cp-932)", "JapaneseFile.txt" 

打開日文字符的文件。然後Perl會自動將其轉換爲內部的Unicode格式。

相關問題