有許多資源可以解析HTML頁面並提取文本內容。 Jsoup就是一個例子。在我的情況下,我想提取帶有每個句子出現的html標籤的文本內容。例如,利用這個頁面HTML解析和提取文本
<html>
<head><title>Test Page</title>
<body>
<h1>This is a test page</h1>
<p> The goal is to extract <b>textual content <em> with html tags</em> </b> from html pages.
</body>
</html>
我期待的輸出是這樣的:
<h1>This is a test page</h1>
<p> The goal is to extract <b>textual content <em> with html tags</em> </b> from html pages.
換句話說,我想包括網頁的文本內容中的特定HTML標籤。
謝謝奧洛。這是我錯過的。 – DotNet