結束我有以下的輸入字符串提取URL的開始部分,如果它與.com或.net
string = ['sql ddlsql144.internal.ecnahcdroffilc.net',
'fra-sql-03.internal.ecnahcdroffilc.net bro',
'esc-cca3cdr-12.internal.ecnahcdroffilc.com',
'au-per-06a-stwp-01.per.asia.ecnahcdroffilc.com',\
'http://go.fotrscomi.com',
'http //go.fotrscomi.com',
'fotrscomi.windows.computer',
'printers-03.internal.clif 10.51.59.10 roalswinds.oionr']
我想要的結果是
['ddlsql144',
'fra-sql-03',
'esc-cca3cdr-12',
'au-per-06a-stwp-01'
'10.51.59.10' ]
條件匹配的模式是:
- 與
.com
或.net
結尾的網址應該匹配,但它不應該與啓動或http://
或http //
- 只有
url
的第一部分必須歸還 - 如果有任何IP地址出現在字符串
我試圖
expression = "(\w[-.a-z0-9]*)..?(?=org|net|com)"
# to extract the whole url
urls = re.findall(expression, str(string))
獲取初始部分我用
re.findall('(^\w.+?)\.',str(urls))
但是這並沒有給我預期的結果。
OP,我們需要談談那些空間存在。 –
另外,你是100%使用正則表達式,或者你會考慮一個更有效的解決方案嗎? –
條件已更新。 – ksai