2013-12-12 66 views
0

我用perl get()方法來刮一個URL。我得到了HTML代碼,但是當我從網站提取泰米爾內容時,它給了我奇怪的文字而不是泰米爾語文本。我使用Firefox Inspector工具來查看它包含泰米爾內容的HTML代碼。但是當我從菜單中查看源代碼時,它顯示編碼的字符串我使用下面的代碼來獲取HTML代碼,並將HTML代碼存儲在foo中。當我用Libreoffice作家打開它時,它會顯示泰米爾語的網頁。但是當我查看源代碼時,它給了我編碼。在Firefox督察和HTML代碼的等效代碼爲folloes:在HTML代碼中的編碼差異

<span class = "biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style="color:#D26900;font-size:16px"></span></span> 

刮相當於HTML代碼:

<span class="biblecontent"> &#2980;&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;&#3021; &#2997;&#3007;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021;, &#2990;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021; &#2986;&#2975;&#3016;&#2980;&#3021;&#2980; &#2986;&#3018;&#2996;&#3009;&#2980;&#3009;, <span style='color:#D26900;font-size:16px'></span></span> 

我如何能獲得泰米爾內容或我怎麼能轉換成HTML內容返回給泰米爾。任何其他獲取泰米爾語或其他語言內容的方法HTML代碼對我很有幫助。

回答

1

使用HTML :: entites的模塊:

#!/usr/bin/perl 

use strict; 
use warnings; 
use HTML::Entities; 
use utf8; 

my $str = '&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;'; 

print decode_entities($str); 

輸出:

ொடக்கத்தில் கடவுள 
+0

感謝@ user4035我已經找到它的答案@ http://mothereff.in/html-entities解碼。它給出了正確的文字。但我仍然需要複製粘貼文本。我有1000行文字。 – xtreak

+0

@xtreak無需使用外部網站。你可以直接用Perl解碼。只要把'$ content = decode_entities($ content);'print'$ content;' – user4035

+0

再次感謝我檢查了它。將其標記爲答案@ user4035 – xtreak