如何在日語中將日文字符轉換爲unicode？

你能指點我的工具將日文字符轉換爲unicode嗎？如何在日語中將日文字符轉換爲unicode？

來源

2010-05-18 TopCoder

你是指從亞洲字符集。您需要先了解日語的哪種字符編碼，然後才能做到這一點。 – 2010-05-18 08:51:22

CPAN給我「Unicode::Japanese」。希望這有助於開始。你也可以看Character Encodings in Perl和perl文檔的文章unicode瞭解更多信息。

來源

2010-05-18 08:56:27 Space

s/artical/article/ – 2010-05-18 15:50:37

布拉德，你有編輯權力。 :) – 2010-05-18 22:58:09

爲什麼 - 是嗎？這是唯一的錯誤:)。 – Space 2010-05-20 04:57:17

請參閱http://p3rl.org/UNI。

use Encode qw(decode encode); 
my $bytes_in_sjis_encoding = "\x88\xea\x93\xf1\x8e\x4f"; 
my $unicode_string = decode('Shift_JIS', $bytes_in_sjis_encoding); # returns 一二三 
my $bytes_in_utf8_encoding = encode('UTF-8', $unicode_string); # returns "\xe4\xb8\x80\xe4\xba\x8c\xe4\xb8\x89"

對於命令行批量轉換，使用piconv：

piconv -f Shift_JIS -t UTF-8 <infile> outfile

來源

2010-05-18 09:26:25 daxim

首先，你需要找出源文本的編碼，如果你不知道它了。

日本最常見的編碼是：

euc-jp：（常用於Unix系統和一些網頁等比shift-jis更大Kanji報道）
shift-jis（微軟還增加了一些擴展，按住Shift JIS被稱爲cp932，這是經常使用的非Unicode Windows程序）
iso-2022-jp是一個遙遠的第三

許多語言的通用編碼轉換庫是iconv（請參閱http://en.wikipedia.org/wiki/Iconv和http://search.cpan.org/~mpiotr/Text-Iconv-1.7/Iconv.pm），它支持many other encodings以及日語。

來源

2010-05-18 11:02:54 cryo

這個問題對我來說似乎有點含糊，我不確定你在問什麼。通常你會用這樣的東西：

open my $file, "<:encoding(cp-932)", "JapaneseFile.txt"

打開日文字符的文件。然後Perl會自動將其轉換爲內部的Unicode格式。

來源

2010-05-18 15:24:21

如何在日語中將日文字符轉換爲unicode？

回答

相關問題