我已經閱讀了此HTML頁面。我試圖提取該div的以下信息:無法獲取特定div的內容
<div class="clearfix">
<div class="container left">
<div class="logo">
<a href="/teams/belarus/fc-bate-borisov/200/">
<img src="http://cache.images.core.optasports.com/soccer/teams/150x150/200.png" alt="FC BATE Borisov" />
</a>
</div>
</div>
<div class="container middle">
<div class="details clearfix">
<dl>
<dt>Gara</dt>
<dd><a href="/national/belarus/premier-league/2016/regular-season/r34862/">Premier League</a></dd>
<dt>Data</dt>
<dd><a href="/matches/2016/06/25/"><span class='timestamp' data-value='1466877600' data-format='d mmmm yyyy'>25 giugno 2016</span></a></dd>
<dt>Game week</dt>
<dd>14</dd>
<dt>calcio di inizio</dt>
<dd>
<span class='timestamp' data-value='1466877600' data-format='HH:MM'>20:00</span>
(<span class="game-minute">FP'</span>)
</dd>
</dl>
</div>
<div class="details clearfix">
<dl>
<dt>Stadio</dt>
<dd><a href="venue/">Borisov Arena (Barysaw (Borisov))</a></dd>
</dl>
</div>
</div>
<div class="container right">
<div class="logo">
<a href="/teams/belarus/fc-vitebsk/204/">
<img src="http://cache.images.core.optasports.com/soccer/teams/150x150/204.png" alt="FC Vitebsk" />
</a>
</div>
</div>
</div>
</div>
</div>
</div>
特別
標籤calcio di inizio - game week - stadio
其實我已經試過這正則表達式:<div[^<>]*class="clearfix"[^<>]*>(?<content>.*?)
但是當我測試它https://regex101.com/我無法運行正則表達式。 我認爲div的類是關聯在多個div上的,所以這可能是問題所在。
而且還沒有任何類別可以接受它,任何想法?
您是否考慮過使用正確的HTML解析器? –
請參閱[標準答案](http://stackoverflow.com/a/1732454),爲什麼不用正則表達式來做。現在,爲了回答你的問題,你可以使用類似[Xidel](http://www.videlibri.de/xidel.html)的東西。也許像這樣:'xidel -e'// div [@ class =「clearfix」]'file.html'。 –
你有什麼建議?我在.net –