2013-03-27 61 views
0

想看看我做錯了什麼。這裏。海葵在第一頁打印鏈接

我需要在父頁上打印鏈接,即使它們是針對另一個域的。然後出去。

require 'anemone' 
url = ARGV[0] 
Anemone.crawl(url, :depth_limit => 1) do |anemone| 
    anemone.on_every_page do |page| 
     page.links.each do |link| 
      puts link 
     end 
    end 
end 

我在做什麼不對?

編輯:無輸出。

+0

OK,有什麼代碼的輸出? – 2013-03-27 05:55:23

+0

你可以顯示你在控制檯中點擊的命令行命令嗎? – 2013-03-27 06:16:42

+0

紅寶石crawl.rb http://www.stackoverflow.com – tven 2013-03-27 17:58:16

回答

0

這爲我工作

require 'anemone' 
    require 'optparse' 
    file = ARGV[0] 
    File.open(file).each do |url| 
     url = URI.parse(URI.encode(url.strip)) 
     Anemone.crawl(url, :discard_page_bodies => true) do |anemone| 
      anemone.on_every_page do |page| 
        links = page.doc.xpath("//a/@href") 
        if (links != nil) 
          links.each do |link| 
            puts link.to_s 
          end 
        end 
      end 

     end 
    end