2014-02-09 190 views
-2

我嘗試寫從谷歌搜索小刮刀腳本,即時通訊寫程序,蝙蝠有小問題,我需要的正則表達式從谷歌搜索中提取數據-href的值,請幫我:正則表達式來提取HTML值

爲例谷歌搜索的HTML代碼:

data-href="www.buxmob.net/index.php?id=577"> 
data-href="www.webopedia.com/TERM/K/keyword.html"> 
data-href="moz.com/beginners-guide-to-seo/keyword-research"> 

只需要出現在這個值的URL,只有這個:

hxxp://www.webopedia.com/TERM/K/keyword.html 
hxxp://moz.com/beginners-guide-to-seo/keyword-research 
hxxp://www.buxmob.net/index.php?id=577 

感謝您

+2

結束不解析與正則表達式HTML「非貪婪的匹配,使用合適的解析器(這使XPath的非常好吃)。 – Wrikken

+1

刮谷歌搜索結果是對他們的TOS。你需要註冊一個API密鑰,並以這種合法的方式去做。 –

+0

即時使用ubotstudio,不可能使用外部腳本! – pythoncoder

回答

0

,把你給的例子可以

(?:data-href=")(.*?)(?:">) 

見演示在http://regex101.com/r/rB4nS1

相匹配,這並不意味着它是一個好主意,試圖解析(普通)HTML用正則表達式 - 但有時,當反應形成良好並且衆所周知,你就會擺脫困境。

請注意,您提到您希望hxxp://在字符串前 - 這不是正則表達式的工作,而是屬於您用來實現表達式的語言。以上是字符串data-href="後開始,並在下次">