2013-05-31 32 views
0

我擁有許多下載的網頁的本地副本。這些頁面幾乎可以肯定只有幾種不同類型的表格佈局,但在查看提取數據之前,我首先要打印每頁上存在的表格的深度和數量。用Perl發現HTML頁面上表格的深度和數量

使用HTML::TableExtract->new(depth => $d, count => $c)我可以遍歷的$d$c一個合理的範圍內,直到我得到什麼......這工作,但看起來很明顯糟糕,我敢肯定有一個更好的方式方法。請問,我是否應該使用與HTML :: TableExtract不同的模塊,還是有更明智的做法,我應該使用TableExtract進行操作?

這就是Perl不經常使用的問題,但可以確定它是適合特定工作的正確工具!

回答

0

我發現我的問題源於我對HTML::TableExtract->new()countdepth參數的完全誤解。我看過的所有例子都使用了headers=>參數,或者是depth=>count=>的組合。事實上,這兩個論點都不是必須的。我真正需要的是用

$te = HTML::TableExtract->new(); 

不帶任何參數的new()方法,然後用$te->tables_report()給我正是我一直在尋找的那種名單。

難怪我沒有得到任何答案!

相關問題