1
我試圖解析包含科學記數法(希臘等)的頁面。 這是page。請注意,還有其他頁面有更多符號要解析。如何啓用HTML :: TableExtract以識別特殊字符
例如,它包含以下HTML
<td> human Interleukin 1β </td>
其中&beta
編碼希臘字母。
與HTML::TableExtract解析後然而,它變成了:
human Interleukin 1\x{3b2}
有沒有一種方法,使下面捕獲的代碼原有的HTML,因爲它是 即maintaning 1&beta
。
use HTML::TableExtract;
use Data::Dumper;
# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";
my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;