我想匹配url中的一部分。此網址已被處理,並僅包含域名。url的正則表達式意外的結果
例如:
的網址我現在已經是business.time.com 現在我想擺脫頂級域名(.COM)的。我想結果是business.time
我使用下面的代碼:
gawk'{
match($1, /[a-zA-Z0-9\-\.]+[^(.com|.org|.edu|.gov|.mil)]/, where)
print where[0]
print where[1]
}' test
在測試中,有四條線:
business.time.com
mybest.try.com
this.is.a.example.org
this.is.another.example.edu
我期待這樣的:
business.time
mybest.try
this.is.a.example
this.is.another.example
但是,輸出是
business.t
mybest.try
this.is.a.examp
this.is.another.examp
誰能告訴我什麼是錯的,我該怎麼辦?
感謝
感謝您的回答。我認爲第一個可能會更好地應用,因爲某些域名地址還包含國家代碼。我在考慮首先使用rev/cut,然後搜索剩餘的域名。希望這可以工作 –