2017-04-18 96 views
0

我正在創建一個正則表達式。這是我的測試數據集:縮小正則表達式結果

<a href="test.html">test1</a> 
<a href="test.pdf">test2</a> 
<a href="test.html">test1</a> 
<a href="test.html">test1</a><a href="testtime.pdf">test2</a> 

我試圖從捕捉到的「href =」到「PDF」,但下面的正則表達式:

href=.*?\.pdf 

將捕獲正確的數據,如果它是孤立以一條線,但它也將匹配來自最後一行如下:

href="test.html">test1</a><a href="testtime.pdf 

我只是從去年的「href」到「.PDF」想,我不想在第一的‘href’上該線或任何其中的東西和第二個「hre F」。是否有可能修改正則表達式來正確匹配?

謝謝。

+0

只有當它是PDF格式時,您才需要上一個鏈接文件的名稱? – Slime

+0

正則表達式的JavaScript? – aahhaa

+0

請注意,用正則表達式解析HTML是充滿危險的。有關原因的示例,請參閱http://htmlparsing.com/regexes.html。 –

回答

0

首先,使用捕獲組,它們允許你匹配整個單詞,但只提取它的一部分,例如href=\"(.*\.pdf)\"應該允許你匹配href="xxxx.pdf"字符串,但只提取xxxx.pdf部分。

你如何做到這一點取決於你使用什麼技術來獲取正則表達式。不知何故,我懷疑這是HTML。