如何啓用HTML :: TableExtract以識別特殊字符

我試圖解析包含科學記數法（希臘等）的頁面。這是page。請注意，還有其他頁面有更多符號要解析。如何啓用HTML :: TableExtract以識別特殊字符

例如，它包含以下HTML

<td> human Interleukin 1&beta;  </td>

其中&beta編碼希臘字母。

與HTML::TableExtract解析後然而，它變成了：

human Interleukin 1\x{3b2}

有沒有一種方法，使下面捕獲的代碼原有的HTML，因爲它是即maintaning 1&beta。

use HTML::TableExtract; 
use Data::Dumper; 

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55 
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html"; 

my $te = HTML::TableExtract->new(); 
$te->parse_file($file); 
my ($table) = $te->tables; 
print Dumper $table ;

來源

2013-01-22 neversaint

它沒有返回

human Interleukin 1\x{3b2}

它返回

human Interleukin 1β

自卸車僅打印出來作爲Perl的字符串字面

"human Interleukin 1\x{3b2}"

無論如何，如果你想生HTML代替它所代表的文本s，我相信將keep_html => 1傳遞給構造函數將會訣竅。

來源

2013-01-22 05:25:41 ikegami

如何啓用HTML :: TableExtract以識別特殊字符

回答

相關問題