0
我用perl get()方法來刮一個URL。我得到了HTML代碼,但是當我從網站提取泰米爾內容時,它給了我奇怪的文字而不是泰米爾語文本。我使用Firefox Inspector工具來查看它包含泰米爾內容的HTML代碼。但是當我從菜單中查看源代碼時,它顯示編碼的字符串我使用下面的代碼來獲取HTML代碼,並將HTML代碼存儲在foo中。當我用Libreoffice作家打開它時,它會顯示泰米爾語的網頁。但是當我查看源代碼時,它給了我編碼。在Firefox督察和HTML代碼的等效代碼爲folloes:在HTML代碼中的編碼差異
<span class = "biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style="color:#D26900;font-size:16px"></span></span>
刮相當於HTML代碼:
<span class="biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style='color:#D26900;font-size:16px'></span></span>
我如何能獲得泰米爾內容或我怎麼能轉換成HTML內容返回給泰米爾。任何其他獲取泰米爾語或其他語言內容的方法HTML代碼對我很有幫助。
感謝@ user4035我已經找到它的答案@ http://mothereff.in/html-entities解碼。它給出了正確的文字。但我仍然需要複製粘貼文本。我有1000行文字。 – xtreak
@xtreak無需使用外部網站。你可以直接用Perl解碼。只要把'$ content = decode_entities($ content);'print'$ content;' – user4035
再次感謝我檢查了它。將其標記爲答案@ user4035 – xtreak