2010-06-08 35 views
0

我想知道什麼可能是最快和最簡單的方法來抓取字符串中的標籤之間的文本。
例如,我有這個字符串:Lorem ipsum <a>dolor sit amet</a>, <b>consectetur</b> adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
而我需要找到標籤<a> </a><b> </b>之間的文本。在web源代碼中的標籤內容匹配

謝謝。

回答

1

解析HTML是非常困難的,因爲網頁很少正確,你會發現很多不匹配的標籤和奇怪的奇怪的東西。

如果這是針對真實世界的網頁,請使用HTMLAgilityPack

0
.+<a>(.+)</a>.+<b>(.+)</b>.+ 

第一個匹配組將包含A標籤和第二組之間的文本 - B標籤之間的文本。

+0

你是不是指'()'而不是'{}'? – Amarghosh 2010-06-08 12:06:31

+0

@Amarghosh:是的,謝謝!偶然與VS正則表達式混合在一起 – abatishchev 2010-06-08 12:09:05

1

<a>(.*)</a>.*<b>(.*)</b>將工作在這種特殊情況下,但總的來說,用正則表達式解析html不是一個好主意。改爲使用HTML/XML解析器。

嘗試HTMLAgilityPack:該SO post解釋瞭如何使用它。