我有很多HTML文件,我需要從中提取文本。如果它全部在一條線上,我可以很容易地做到這一點,但如果標籤環繞或在多條線上,我不知道如何做到這一點。這就是我的意思是:提取HTML標記之間的文本
<section id="MySection">
Some text here
another line here <br>
last line of text.
</section>
我不關心<br>
文本,除非它會幫助周圍環繞的文本。我想要的區域始終以「MySection」開頭,然後以</section>
結束。我想直到結束是這樣的:
Some text here another line here last line of text.
我喜歡的東西就像一個VBScript或命令行選項,但我不知道從哪裏開始(SED?)。任何幫助?
+1使用合適解析器和整體優雅的解決方案建議。 –