2013-01-22 51 views
1

我試圖解析包含科學記數法(希臘等)的頁面。 這是page。請注意,還有其他頁面有更多符號要解析。如何啓用HTML :: TableExtract以識別特殊字符

例如,它包含以下HTML

<td> human Interleukin 1&beta;  </td> 

其中&beta編碼希臘字母。

HTML::TableExtract解析後然而,它變成了:

human Interleukin 1\x{3b2} 

有沒有一種方法,使下面捕獲的代碼原有的HTML,因爲它是 即maintaning 1&beta

use HTML::TableExtract; 
use Data::Dumper; 

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55 
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html"; 

my $te = HTML::TableExtract->new(); 
$te->parse_file($file); 
my ($table) = $te->tables; 
print Dumper $table ; 

回答

3

它沒有返回

human Interleukin 1\x{3b2} 

它返回

human Interleukin 1β 

自卸車僅打印出來作爲Perl的字符串字面

"human Interleukin 1\x{3b2}" 

無論如何,如果你想生HTML代替它所代表的文本s,我相信將keep_html => 1傳遞給構造函數將會訣竅。