2011-12-17 135 views
0

從URL中提取文本?正則表達式字母分組?

嘗試此的preg_match

/\<a href=([^"]*) .?\>([^\<\/a]*)\<\/a\>+/ 

不工作

<a href="_first.asp?FileName=37479676820111216064143">   
<font size="2" face="Tahoma"> 
TEXT I WANT TO EXTRACT 
</font> 
</a> 

敢肯定有一些錯誤([^\<\/a]*)我太糟糕的正則表達式,甚至無法找到一個很好的教程!

+0

添加了'php'標籤,因爲有很多**正則表達式的方言。但是當你使用'preg_match'時,我們可以假設PHP的方言。 – 2011-12-17 12:12:32

+0

哦,是的,抱歉,我忘了添加它,我的大腦忙於思考 – 2011-12-17 12:14:16

回答

0

從一開始,你有href=,然後有任何數量的非引號(在你的例子中爲零,因爲下一個字符是引號),然後是一個空格(由於下一個字符字符不是一個引號,而是一個空格)。

在任何情況下,只要結構不變,這是可以用regexps實現的,it's not really the way to do it

0

可能:

/^<a[^>]+>(?:\s*<[^>]+>)*\s*([^<]+)(?:\s*<\/[^>]+>)*\s*<\/a>$/m

是否行得通呢?