2008-12-30 14 views
6

所以,我一直在研究這個域名正則表達式。到目前爲止,它似乎選擇了帶有SLD和TLD的域名(使用可選的ccTLD),但TLD列表存在重複。這可以進一步重構嗎?我可以改進有效域名的正則表達式檢查嗎?

params[:domain_name].downcase.strip.match(/^[a-z0-9\-]{2,63} 
\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)| 
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]| 
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)| 
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]| 
(m[acdghklmnopqrstuvwxyz]|me|mil|mobi|museum)|(n[acefgilopruz]|name|net)|(om|org)| 
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]| 
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw]) 
(\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)| 
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]| 
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)| 
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]| 
m[acdghklmnopqrstuvwxyz]|mil|mobi|museum)| 
(n[acefgilopruz]|name|net)|(om|org)| 
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]| 
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw]))?$/) 
+2

這樣的正則表達式在創建新域時需要維護什麼? – mark 2008-12-30 10:41:36

+0

因爲所有的答案似乎都是通過其他方式來查找頂級域名,所以我建議將這個問題重命名以避免將來重複(除非人們真的開始回答重構問題) – TheSoftwareJedi 2008-12-30 21:21:44

+0

好主意 - 這實際上不是一個正則表達式問題。 – Alnitak 2008-12-30 21:27:25

回答

28

請請,請不要使用這樣一個固定和可怕的複雜正則表達式來匹配已知的域名。

TLD列表爲而非爲靜態,特別是ICANN正在尋求簡化的新gTLD流程。即使是ccTLD列表有時也會發生變化!

查看http://publicsuffix.org/的可用列表,並編寫一些能夠下載並解析該列表的代碼。

0

我可能對域名不夠了解。但爲什麼像「foo.info.com」這樣的域名匹配?在這種情況下,域名似乎是「info.com」。

您可能想要確保名稱以[a-z \ d]開頭。我不認爲你可以註冊一個以破折號開頭的域名?

-1

以及你有它寫的,TLD部分相當於但是比(\.<tldpart>){1,2}長,但我敢肯定,它可以固定重複...

編輯:yech,不,這將是可能的,但實質上一個非常緩慢的蠻力清單來處理我認爲的重複。更簡單,更快地將可能的TLD和SLD +國家對放在一個大的散列表中,並檢查相應的子字符串。

-1

您可以將正則表達式構建爲字符串,然後執行Regexp.new(string)。

-1

我推薦從RFC 1035中規定的規則開始,然後倒退 - 但只有在你真的真的需要從頭開始時才這樣做。域名正則表達式模式必須是(僅次於電子郵件地址正則表達式模式),這是最常見的事情。我會查看該網站regexlib.com並瀏覽其他人已完成的工作。

4

下載此:http://data.iana.org/TLD/tlds-alpha-by-domain.txt

用法示例(在Python):

import re 
def validate(domain): 
    valid_domains = [ line.upper().replace('.', '\.').strip() 
         for line in open('domains.txt') 
         if line[0] != '#' ] 
    r = re.compile(r'^[A-Z0-9\-]{2,63}\.(%s)$' % ('|'.join(valid_domains),)) 
    return True if r.match(domain.upper()) else False 


print validate('stackoverflow.com') 
print validate('omnom.nom') 

那麼您可以在域列表建設了驗證功能,以幫助性能。