2016-06-25 134 views
-1

我已經閱讀了此HTML頁面。我試圖提取該div的以下信息:無法獲取特定div的內容

<div class="clearfix"> 
<div class="container left">  
    <div class="logo"> 
     <a href="/teams/belarus/fc-bate-borisov/200/"> 
     <img src="http://cache.images.core.optasports.com/soccer/teams/150x150/200.png" alt="FC BATE Borisov" /> 
     </a> 
    </div> 
    </div> 

    <div class="container middle"> 
    <div class="details clearfix"> 
     <dl> 
     <dt>Gara</dt> 
     <dd><a href="/national/belarus/premier-league/2016/regular-season/r34862/">Premier League</a></dd> 

     <dt>Data</dt> 
     <dd><a href="/matches/2016/06/25/"><span class='timestamp' data-value='1466877600' data-format='d mmmm yyyy'>25 giugno 2016</span></a></dd> 

     <dt>Game week</dt> 
     <dd>14</dd> 

     <dt>calcio di inizio</dt> 
     <dd> 
      <span class='timestamp' data-value='1466877600' data-format='HH:MM'>20:00</span> 
      (<span class="game-minute">FP'</span>) 
     </dd> 
     </dl> 
    </div> 

    <div class="details clearfix"> 
     <dl> 
     <dt>Stadio</dt> 
     <dd><a href="venue/">Borisov Arena (Barysaw (Borisov))</a></dd> 

     </dl> 
    </div> 

    </div> 

    <div class="container right"> 
    <div class="logo"> 
     <a href="/teams/belarus/fc-vitebsk/204/"> 
     <img src="http://cache.images.core.optasports.com/soccer/teams/150x150/204.png" alt="FC Vitebsk" /> 
     </a> 
    </div> 
    </div> 
</div> 
    </div> 
    </div> 
</div> 
特別

標籤calcio di inizio - game week - stadio

其實我已經試過這正則表達式:<div[^<>]*class="clearfix"[^<>]*>(?<content>.*?)

但是當我測試它https://regex101.com/我無法運行正則表達式。 我認爲div的類是關聯在多個div上的,所以這可能是問題所在。

而且還沒有任何類別可以接受它,任何想法?

+2

您是否考慮過使用正確的HTML解析器? –

+0

請參閱[標準答案](http://stackoverflow.com/a/1732454),爲什麼不用正則表達式來做。現在,爲了回答你的問題,你可以使用類似[Xidel](http://www.videlibri.de/xidel.html)的東西。也許像這樣:'xidel -e'// div [@ class =「clearfix」]'file.html'。 –

+0

你有什麼建議?我在.net –

回答

0

如果添加一個id爲您想獲得(例如「myDiv」)的內容股利,你可以運行JavaScript函數返回它下面的HTML內容:

document.getElementById("myDiv").innerHTML 

我不是確切地說,如果這是你想要的,因爲它不是正則表達式,但如果是這樣,我希望這有助於!

+1

你怎麼確定它是一個JavaScript問題? –

+0

我不是,但由於作者正在使用html,所以很可能他也在使用js。我可能是錯的 – user31415