我想解析html標記和標記的內容。我可以使用Java UrlConnection
將html加載爲字符串。我使用這個正則表達式:<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)</\\1>
但我無法獲得所有標籤。是否有更靈活的正則表達式來獲取所有類型的標籤。注意:我可以很容易地用Jsoup完成所有這些工作。 但我不應該使用任何庫。用Java中的正則表達式解析HTML標記
<div id="footer">
<div id="footerbody">
<div id="footerabout">
<h3>Bilgi</h3>
<ul>
<li><a href="/page/history">Tarihçe</a></li>
<li><a href="/page/visionandmission">Vizyon ve Misyon</a></li>
<li><a href="/page/education">Eğitim</a></li>
<li><a href="/page/staff">Kadro</a></li>
<li><a href="/page/labs">Laboratuvarlar</a></li>
<li><a href="/page/classrooms">Sınıflar</a></li>
<li><a href="/page/commissions">Komisyonlar</a></li>
</ul>
</div>
<div id="footersitemap">
<h3>Site Haritası</h3>
</div>
</div>
是有可能我得到這個輸出。
tag : div
content : id=footer
...等等。
謝謝。
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454? – noone
一些問題值得-100 – Jayan
@noone:反駁[另一個答案](http://stackoverflow.com/a/1733489/581205)。對於一個快速和骯髒的解決方案,這很好(對於真正的解析它是一個非常糟糕的主意)。 – maaartinus