輕鬆:
require 'nokogiri'
html = '
<td width="50%">
<a href="/aems/file/filegetrevision.do?fileEntityId=10597525&cs=9b7sjueBiWLBEMj2ZU4I6fyQoPv-g0NLY9ETqP0gWk4.xyz">
screenshot.doc
</a>
</td>
'
doc = Nokogiri::HTML(html)
doc.search('a[href]').map{ |a| a['href'] }
將返回:
[
[0] "/aems/file/filegetrevision.do?fileEntityId=10597525&cs=9b7sjueBiWLBEMj2ZU4I6fyQoPv-g0NLY9ETqP0gWk4.xyz"
]
如果はNT來篩選路徑相匹配,使用類似:
pattern = Regexp.escape('/aems/file/filegetrevision.do?fileEntityId')
doc.search('a[href]').map{ |a| a['href'] }.select{ |href| href[ %r[^#{ pattern }] ] }
這又返回:
[
[0] "/aems/file/filegetrevision.do?fileEntityId=10597525&cs=9b7sjueBiWLBEMj2ZU4I6fyQoPv-g0NLY9ETqP0gWk4.xyz"
]
這個代碼將從所有<a>
標籤與href
文檔中返回href
參數。在第二個示例中,它將通過路徑過濾它們。
看看[Nokogiri](http://nokogiri.org/)。你可以解析文檔只有符合所需模式的'href' –