我正在嘗試正則表達式鏈接的結尾,其中唯一的標識符是類值fl。因此,正則表達式(據我所知)必須包括:正則表達式 - 從改變中間的HTML獲取價值
class=\"fl\"
帳戶改變中間部分,其中\ S +不起作用,然後找到並組:
data-href="http://www.twitter.com/(newyorklife)
其中組在圓括號中找到。我試圖解析的整個字符串是。
<g-link class="fl"><a href="/url?sa=t&rct=j&q=&esrc=s&source=web&cd=32&cad=rja&uact=8&ved=0ahUKEwjknIy87oHWAhXHi1QKHXQdAJsQ9zAIyQEwHw&url=http%3A%2F%2Fwww.twitter.com%2Fnewyorklife&usg=AFQjCNHKcAcw6H6cYG3YH1j4V3UOxX1whw" onmousedown="return rwt(this,'','','','32','AFQjCNHKcAcw6H6cYG3YH1j4V3UOxX1whw','','0ahUKEwjknIy87oHWAhXHi1QKHXQdAJsQ9zAIyQEwHw','','',event)" data-href="http://www.twitter.com/newyorklife"><div jsl="$t t-XNwoAoU5dyo;$x 0;" class="r-iBA3fWkVHWLE"><g-img class="_tek"><img id="uid_4" src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAACAAAAAgCAIAAAD8GO2jAAABZUlEQVR4AWLQWfWQpmjUAjxo1IJRC2wBpJTDQkVRFIafKBujZrnGjbNd84wHiJNs27btrm3rrFbW1T73m20u/yMsW0cBg6zue5XCYLFQcC41JK0I3PsYaWvC+BkugYFljrbmWPp/H/86FOnhB2hGZbTg/dBhFoEBhsoEAO23Su9+5s/9nA0R/ANtXEgNJTtiAgObfB28gZaKt8Wen2ZarhRgjVL8nagGmetC+IFMb5lgqOtOZAtsLVgjcIhFZqD+RLYj0IFzGCwUcRctc7XgNNcyA7GBhAW+EWvnHK3XCjqDhg3OUpvAEegFTgAdA+nrwnuF4zCw7DSlwqOPscRxUAmtiYqY5NDXImz/6mPprlAP1sDgcjdFLokdCkPGW6Kstmbhtoim2IWNsRsvFXNsjURvBmvgiMROc11S0+BhVvmhFAUDhewrISgbg4/qlyUdeEnl+sBk7SOgfcBSb3jWaKMWjFoAABKespvtvzYlAAAAAElFTkSuQmCC" data-deferred="1" class="_WCg" height="32" width="32" alt="" onload="typeof google==='object'&&google.aft&&google.aft(this)"></g-img></div>Twitter</a></g-link>
我不知道如果正則表達式有一個方法或可以跳過整個中間部分與這麼多的特殊字符。我在pythex.org上玩了一段時間,找不到一個簡單地找到初始值的方法,然後跳過所有的東西,直到......指定的值。有任何想法嗎?
編輯。我想要字符串'Newyorklife'作爲輸出。雖然這是一個不斷變化的價值,但我真的很想在twitter.com/後面加上\ w +。問題在於class = fl是網頁上唯一的唯一標識符(因爲twitter和data-href出現在頁面的其他地方)。
你想要的輸出是什麼? – Ajax1234
我是否正確理解你想從「rwt(」...到...「事件)中捕獲該位」是的? –
我試圖在這個例子中獲得(newyorklife)。雖然這將是一個變化的價值,因此它將是我想要獲得的twitter.com後的一個\ w +。唯一的唯一值是class = fl值。 – WolVes