我有一些格式爲「www.blah.com/en-us」的URL列表,我需要在「www.blah.com」之後切斷任何內容。我已經使用以下嘗試:根據模式截斷變量的結尾
import re
website = www.blah.com/en-us
cleanURL = re.sub('(.|\n)*?com', "", website)
輸出:「EN-US」
所以我得到我想要的東西相反。很抱歉,如果這篇文章格式不正確,請首先提問。
我有一些格式爲「www.blah.com/en-us」的URL列表,我需要在「www.blah.com」之後切斷任何內容。我已經使用以下嘗試:根據模式截斷變量的結尾
import re
website = www.blah.com/en-us
cleanURL = re.sub('(.|\n)*?com', "", website)
輸出:「EN-US」
所以我得到我想要的東西相反。很抱歉,如果這篇文章格式不正確,請首先提問。
正在使用正則表達式嗎?如果您正在嘗試處理的網址中沒有協議(例如http://),則可以使用your_url_string.split('/', 1)[0]
,它應在「/」的第一個實例上分割並在分割之前爲您提供該部分。
奇怪的是,當我運行你的代碼時,我沒有得到'en-us',我得到了'NameError:name'www'沒有被定義。你確定這是你正在運行的確切代碼嗎? – Kevin
可能是重複https://stackoverflow.com/questions/27745/getting-parts-of-a-url-regex –