我有一些HTML,並希望從中抓取一些數據。刮直接位於div下面的div
的HTML按以下方式構造
<div class="someClass"><span class="someOtherClass">Text</span></div>
<table>
<tbody>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
</tbody>
</table>
<div class="someClass"><span class="someOtherClass">Text</span></div>
<table>
<tbody>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
<tr>
<td>label</td>
<td>data</td>
</tr>
</tbody>
</table>
<div class="someClass"><span class="someOtherClass">Text</span></div>
我需要能夠刮掉位於跨度文本值,其中類=「someOtherClass」(我已經實現了這個部分)
然後我需要能夠直接在div下面刮表。由於「父」div實際上並不包含表,所以我在實現這個時遇到了一些問題。
你的HTML不似乎是畸形的。 htmlagilitypack的HTMLDocument應該能夠找到你想要從DOM中提取的結構,你試過了嗎? – James
如果你仍然想使用正則表達式 - 請先閱讀https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/中的所有文章。 –
@ EitanSeri-Levi - 我編輯了你的帖子,刪除帖子正文中的_regex_標籤和正則表達式verbage。請接受編輯。意識到雖然有些人只監視某些標籤和標題。請儘量在將來更小心。我確實相信大約有一百萬個Xpath帖子的重複。當我有時間時,我會將其標記爲重複。祝你好運 !! – sln