如何在使用nokogiri/hpricot和其他gem的網頁中grep文件名和擴展名？

我工作的一個應用程序，我必須如何在使用nokogiri/hpricot和其他gem的網頁中grep文件名和擴展名？

1）獲取網站

2）的所有鏈接，然後獲得在網頁中的每個所有文件和文件擴展名列表/鏈接。

我與它的第一部分做了:) 我得到下面的代碼網站的所有鏈接..

require 'rubygems' 
require 'spidr' 
require 'uri' 


Spidr.site('http://testasp.vulnweb.com/') do |spider| 
    spider.every_url { |url| 
        puts url  
        } 
end

現在我已經得到了所有的文件/在每個文件的擴展在頁面的，所以我嘗試下面的代碼

require 'rubygems' 
require 'nokogiri' 
require 'open-uri' 
require 'spidr' 

site = 'http://testasp.vulnweb.com' 

in1=[] 

Spidr.site(site) do |spider| 

    spider.every_url { |url| in1.push url } 

end 


in1.each do |input1| 

    input1 = input1.to_s 
    #puts input1 
    begin 
    doc = Nokogiri::HTML(open(input1)) 
    doc.traverse do |el| 
     [el[:src], el[:href]].grep(/\.(txt|css|gif|jpg|png|pdf)$/i).map{|l| URI.join(input1, l).to_s}.each do |link| 
      puts link 
     end 
    end 
    rescue => e 
     puts "errrooooooooor" 
    end 

end

，但任何人都可以指導我如何解析鏈接/網頁並獲取頁面的文件 - 擴展？

來源

2012-01-06 Aniruddhsinh

發佈你想要實現的例子將是有用的:) – 2012-01-06 06:38:05

您可能想看看URI#parse。 URI模塊是Ruby標準庫的一部分，並且是gem的依賴項。使用規範進行示例實現以獲得較好的度量

require 'rspec' 
require 'uri' 

class ExtensionExtractor 
    def extract(uri) 
    /\A.*\/(?<file>.*\.(?<extension>txt|css|gif|jpg|png|pdf))\z/i =~ URI.parse(uri).path 
    {:path => uri, :file => file, :extension => extension} 
    end 
end 

describe ExtensionExtractor do 
    before(:all) do 
    @css_uri = "http://testasp.vulnweb.com/styles.css" 
    @gif_uri = "http://testasp.vulnweb.com/Images/logo.gif" 
    @gif_uri_with_param = "http://testasp.vulnweb.com/Images/logo.gif?size=350x350" 
    end 

    describe "Common Extensions" do 
    it "should extract CSS files from URIs" do 
     file = subject.extract(@css_uri) 
     file[:path].should eq @css_uri 
     file[:file].should eq "styles.css" 
     file[:extension].should eq "css" 
    end 

    it "should extract GIF files from URIs" do 
     file = subject.extract(@gif_uri) 
     file[:path].should eq @gif_uri 
     file[:file].should eq "logo.gif" 
     file[:extension].should eq "gif" 
    end 

    it "should properly extract extensions even when URIs have parameters" do 
     file = subject.extract(@gif_uri_with_param) 
     file[:path].should eq @gif_uri_with_param 
     file[:file].should eq "logo.gif" 
     file[:extension].should eq "gif" 
    end 
    end 
end

來源

2012-01-06 19:01:52

如何在使用nokogiri/hpricot和其他gem的網頁中grep文件名和擴展名？

回答

相關問題