2016-08-24 83 views
0
解析出URL的某些部分

假設我有一些類似的下面,使用正則表達式使用Python

URL 
http://hostname.com/as/ck$st=fa+gw+hw+ek+ei/ 
http://hostname.com/wqs/ck$st=fasd+/ 
http://hostname.com/as/ck$st=fa+gq+hf+kg+is&sadfnlslkdfn&gl+jh+ke+oj+kp sfav 

我要檢查在URL中第一個+號,直到我們找到一個特別的向後移動字符如/或?或=或任何其他特殊字符,並從此開始並繼續,直到找到空格或行末或&或/。

我用計算器論壇的幫助下寫的正則表達式如下所示,

re.search(r"[^\w\+ ]([\w\+ ]+\+[\w\+ ]+)(?:[^\w\+ ]|$)", x).group(1) 

這其中的工作原理與第一排。但不解析第二行的任何內容。同樣在第三行中,我想檢查行中這樣的多個模式。目前的正則表達式只檢查一種模式。

我的輸出應該是,

parsed 
fa+gw+hw+ek+ei 
fasd 
fa+gq+hf+kg+is gl+jh+ke+oj+kp 

任何人可以幫助我修改的正則表達式是已經存在,以適應這需要?

感謝

回答

2

我用regexr想出這個(regexr link):

([\w\+]*\+[\w\+]*)(?:[^\w\+]|$)

匹配:

fa+gw+hw+ek+ei fasd+ fa+gq+hf+kg+is gl+jh+ke+oj+kp

編輯:除了使用re.search的,請嘗試使用re.findall相反:

>>> s = "http://hostname.com/as/ck$st=fa+gq+hf+kg+is&sadfnlslkdfn&gl+jh+ke+oj+kp sfav" 
>>> re.findall("([\w\+]+\+[\w\+]*)(?:[^\w\+]|$)", s) 
['fa+gq+hf+kg+is', 'gl+jh+ke+oj+kp'] 
+0

這一個不適用於第三行。它只給出fa + gq + hf + kg +作爲輸出。我想,fa + gq + hf + kg +是gl + jh + ke + oj + kp作爲輸出。你能幫我做這件事嗎? – Observer

+0

@Observer查看編輯 –

+0

非常感謝!它工作 – Observer

0

如果更改[^\w\+ ]([\w\+ ]+\+[\w\+ ]+)(?:[^\w\+ ]|$)[^\w\+ ]([\w\+ ]+\+[\w\+ ]*)(?:[^\w\+ ]|$)它將匹配第二網址爲好。

它將包含尾部的'+',它不包含在你想要的輸出中,但似乎符合你提到的標準,所以如果你不想要任何尾隨的'+',這可能需要一些修改。秒。

+0

@this一個不工作的第三行。它只給出fa + gq + hf + kg +作爲輸出。我想,fa + gq + hf + kg +是gl + jh + ke + oj + kp作爲輸出。你能幫我做這件事嗎? – Observer

0

嘗試使用後unsuccesfully urlparse它似乎得到你想要的是使用正則表達式的信息的最佳方式:

import urlparse 
import re 

urls = [ 
    "http://hostname.com/as/ck$st=fa+gw+hw+ek+ei/", 
    "http://hostname.com/wqs/ck$st=fasd+/", 
    "http://hostname.com/as/ck$st=fa+gq+hf+kg+is&sadfnlslkdfn&gl+jh+ke+oj+kp sfav" 
] 

for myurl in urls: 
    parsed = urlparse.urlparse(myurl) 

    print 'scheme :', parsed.scheme 
    print 'netloc :', parsed.netloc 
    print 'path :', parsed.path 
    print 'params :', parsed.params 
    print 'query :', parsed.query 
    print 'fragment:', parsed.fragment 
    print 'username:', parsed.username 
    print 'password:', parsed.password 
    print 'hostname:', parsed.hostname, '(netloc in lower case)' 
    print 'port :', parsed.port 

    print urlparse.parse_qs(parsed.query) 

    print re.findall(r'([\w\+]+\+[\w\+]*)(?:[^\w\+]|$)', parsed.path) 
    print '-' * 80 
+0

這不適用於hostname.com/wqs/ck$st=+fasd。我們怎樣才能使用這個工作呢?你能在這裏請嗎? – Observer