我知道這已被問到一些能力 - 但我還沒有看到解決方案的工作示例。我知道有Html敏捷包來解析HTML字符串,但我不希望下載/安裝它。我使用C#正則表達式來獲得兩個字符串之間的通配符字符串之間的字符串?
string html = client.DownloadString("http://yoursite.com/page.html");
我有一個標籤,其有一類與他們獲得一個網頁的內容,但其中的一些標籤也有自己的ID,或風格等,例如:
<td>I Dont want this</td>
<td class="myClass">I want this</td>
<td class="myClass" id="myID">I want this</td>
<td style="border-top-width: 0px; class="myClass">I want this</td>
我試圖
<td>(.*?)</td>
但它返回的標籤,沒有任何類,ID等
我試過
<td class="myClass"[^>]*>(.*?)</td>
但它只返回第二個和第三個<td>
值,但不是第四個。如何添加通配符來返回<td>
與myClass
,但忽略之前或之後發生的任何事情,如id
或style
?
我不得不指出你[這個頗有名的問題](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – Jonesopolis
部分HTML將始終具有問題指定的相同格式。瀏覽器不會自動完成和自動更正錯誤或重載。 – KingsInnerSoul
只需在'class'屬性之前添加另一個'[^>] *'。如果你的HTML和你說的一致,那應該就足夠了。 –