0
我工作的一個應用程序,我必須如何在使用nokogiri/hpricot和其他gem的網頁中grep文件名和擴展名?
1)獲取網站
2)的所有鏈接,然後獲得在網頁中的每個 所有文件和文件擴展名列表/鏈接。
我與它的第一部分做了:) 我得到下面的代碼網站的所有鏈接..
require 'rubygems'
require 'spidr'
require 'uri'
Spidr.site('http://testasp.vulnweb.com/') do |spider|
spider.every_url { |url|
puts url
}
end
現在我已經得到了所有的文件/在每個文件的擴展在 頁面的,所以我嘗試下面的代碼
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'spidr'
site = 'http://testasp.vulnweb.com'
in1=[]
Spidr.site(site) do |spider|
spider.every_url { |url| in1.push url }
end
in1.each do |input1|
input1 = input1.to_s
#puts input1
begin
doc = Nokogiri::HTML(open(input1))
doc.traverse do |el|
[el[:src], el[:href]].grep(/\.(txt|css|gif|jpg|png|pdf)$/i).map{|l| URI.join(input1, l).to_s}.each do |link|
puts link
end
end
rescue => e
puts "errrooooooooor"
end
end
,但任何人都可以指導我如何解析鏈接/網頁並獲取頁面的文件 - 擴展?
發佈你想要實現的例子將是有用的:) – 2012-01-06 06:38:05