文本我有一個很奇怪的問題:我搜索的網址上的HTML網站,並希望只有網址的特定部分。在我的測試HTML頁面中的鏈接只發生一次,但不是一個結果,我獲得約20 ...正則表達式得到更多的結果,那麼可用
這是用我正則表達式IM:
perl -ne 'm/http\:\/\myurl\.com\/somefile\.php.+\/afolder\/(.*)\.(rar|zip|tar|gz)/; print "$1.$2\n";'
樣品的投入將是這樣的:
<html><body><a href="http://myurl.com/somefile.php&x=foo?y=bla?z=sdf?path=/foo/bar/afolder/testfile.zip?more=arguments?and=evenmore">Somelinknme</a></body></html>
這是一個非常簡單的例子。所以在實際的鏈接將衝擊片雷管在一個普通的網站,各地的內容...
我的結果應該是這樣的:
testfile.zip
,而是我看到這一行很多時候......這是一與正則表達式或與其他東西的問題?
您應該發佈示例輸入和輸出以便更容易理解。 – tuxuday
@tuxuday添加了一些 – reox
由於daxim的回答使用HTML解析器來解析HTML。你仍然可以對它產生的結果使用正則表達式,並且你將避免很多解析痛苦。 –