在Ruby中提取字符串中的所有網址

我想抓住所有的URL並將它們放入數組中。

我有這樣的代碼

content = "Here is the list of URLs: http://www.google.com http://www.google.com/index.html" 

urls = content.scan(/^(http|https):\/\/[a-z0-9]+([\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(([0-9]{1,5})?\/.*)?$/ix)

我試圖讓最終的結果是：

['http://www.google.com', 'http://www.google.com/index.html']

上面的代碼似乎並沒有正常工作。有誰知道我做錯了什麼？

感謝

來源

2010-02-19 RailsSon

不同的方法，從完美的，是最敵人的最良好的辦學思想：

urls = content.split(/\s+/).find_all { |u| u =~ /^https?:/ }

來源

2010-02-19 16:22:10 FMc

我給你簡單。這可能是所有需要的。 – Chowlett 2010-02-19 16:35:58

我畢業於那所學校！ – 2012-10-25 00:58:57

這種方法將會錯過許多有效的URL並錯誤地選擇許多無效的URL。 – sferik 2013-01-23 05:47:48

我沒有檢查你的正則表達式的語法，但String.scan會產生一個數組，它的每個成員是你的正則表達式匹配組的陣列。所以我希望得到的結果是：

[['http', '.google.com'], ...]

你需要不匹配的組/(?:stuff)/如果你想要你給的格式。

編輯（看正則表達式）：此外，你的正則表達式看起來有點不對。您不希望開始和結束錨點（^和$），因爲您不希望匹配在content的開始和結束。其次，如果你的([0-9]{1,5})?試圖捕獲一個端口號，我認爲你錯過了一個冒號來區分端口。

進一步編輯，播放後：我想你想是這樣的：

content = "Here is the list of URLs: http://www.google.com http://www.google.com/index.html http://example.com:3000/foo" 
urls = content.scan(/(?:http|https):\/\/[a-z0-9]+(?:[\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(?:(?::[0-9]{1,5})?\/[^\s]*)?/ix) 
# => ["http://www.google.com", "http://www.google.com/index.html", "http://example.com:3000/foo"]

...但是請注意，它不會匹配純IP地址的網址（例如http://127.0.0.1），因爲TLD的[a-z]{2,5}。

來源

2010-02-19 15:45:27 Chowlett

簡單：

ruby-1.9.2-p136 :006 > require 'uri' 
ruby-1.9.2-p136 :006 > URI.extract(content, ['http', 'https']) 
    => ["http://www.google.com", "http://www.google.com/index.html"]

來源

2011-05-09 16:42:33 balu

爲什麼這不被標記爲正確的答案。 grml – 2015-09-24 04:04:58

這應該被標記爲答案。更優雅。 – adeluccar 2016-06-03 09:14:36

只爲你的興趣：

Ruby有一個URI模塊，它有一個正則表達式來實現這樣的事情：

require "uri" 

uris_you_want_to_grap = ['ftp','http','https','ftp','mailto','see'] 

html_string.scan(URI.regexp(uris_you_want_to_grap)) do |*matches| 
    urls << $& 
end

欲瞭解更多信息，請參閱Ruby Ref：URI

來源

2012-07-23 17:22:27 HaNdTriX

在Ruby中提取字符串中的所有網址

回答

相關問題