我很新的python。我試圖解析一個URL文件只留下域名。查找http://和或www。並從域中剝離。離開domain.com
我的日誌文件中的一些網址以http://開頭,有些以www.some開頭。
這是我的代碼的一部分剝去http://部分。我需要添加什麼來查找http和www。並刪除?
line = re.findall(r'(https?://\S+)', line)
目前,當我運行的代碼只有http://被剝離。如果我將代碼更改爲以下內容:
line = re.findall(r'(https?://www.\S+)', line)
只有以兩者開頭的域纔會受到影響。 我需要更有條件的代碼。 TIA
編輯...這裏是我的全部代碼...
import re
import sys
from urlparse import urlparse
f = open(sys.argv[1], "r")
for line in f.readlines():
line = re.findall(r'(https?://\S+)', line)
if line:
parsed=urlparse(line[0])
print parsed.hostname
f.close()
我mistagged通過原來的職位爲正則表達式。它的確使用了urlparse。
剛一說明:您知不知道'www.domain.com'是* FROM'domain.com'不同*,權,並可能指向完全不同的IP地址? –
域名「www.www.com」和「www.com」怎麼樣? – Matthias
Duplicate:http://stackoverflow.com/questions/1521592/get-root-domain-of-link –