我在C#中遇到了正則表達式的問題。我想分析一個簡單的網頁的HTML代碼。它看起來像這樣:C#使用正則表達式分析html代碼
<td class="ivu_table_c_dep"> 12:05 </td>
<td class="ivu_table_c_line"> Bus 398 </td>
<td>
<img src="/IstAbfahrtzeiten/img/css/link.gif" alt="" />
<a class="catlink" href="http://mobil.bvg.de/Fahrinfo/bin/stboard.bin/dox?boardType=dep&input=S Mahlsdorf!&time=12:05&date=15.02.2012&&" title="interner Link: Information zu dieser Haltestelle">S Mahlsdorf</a>
我想知道的是「12:05」,「巴士398」和「S Mahlsdorf」。隨着第2個部分,我得到它與下面的代碼工作:
Regex HTMLTag = new Regex("ivu_table_c_dep\">([^<>]*)</td>([^<>]*)<td class=\"ivu_table_c_line\">([^<>]*)</td>");
但我不明白的3部分。我嘗試添加 「([^(\」>)] )([^ <>])」但它doesnt't工作
強制性:http://stackoverflow.com/questions/677038/how-to-use-regular-expressions-to -parse-html-in-java – Oded 2012-02-15 10:59:48
更強制性的:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – 2012-02-15 11:24:35