2015-06-01 48 views
1

閱讀UTF8文件,我試着去閱讀一個HTML文件與Perl模塊,File::Slurp與檔案::嘟嘟地喝

binmode STDOUT, ':utf8'; 
my $htmlcontent = read_file($file, {binmode => ':utf8'}); 

但是,當我打印$htmlcontent變量,某些字符不被理解,由於法國口音或特殊字符。

例如:"Plus d'actualit\u00e9s"應該"Plus d'actualités"

我還檢查文件的編碼和它的確定!

HTML document, UTF-8 Unicode text, with very long lines, with CRLF, LF line terminators 

這個模塊有問題嗎?

由於

回答

2

\u00e9不是UTF-8字符,是JavaScript的代表Unicode字符。例如,您需要使用Encode::JavaScript::UCS解碼文件的內容。

+0

我試過你的解決方案,但仍然是同樣的問題。 我在另一臺機器上測試過,問題消失了。我認爲這是一個OS環境的問題。 – Mcdostone