我實際上正在Java中開發一個文本解析器,並且我被要求用它解析HTML來增強它。 解析器的目的是將解析的文件分成3個其他文件,一個包含文件中包含的所有單詞,一個包含所有語句,另一個包含所有問題。JSoup - 按標記解析HTML標記
* .txt部分工作正常,但解析HTML時出現問題。
我創建一個擴展名爲* .txt的臨時文件,並通過它在我的文本解析器,但如果我通過與鏈接的HTML文件,該文件是這樣形成的網址:
<!DOCTYPE html>
<head>
... some HTML here ...
</head>
<body>
<ul class="some_menu">
<li class="some_menu_item">n1</li>
<li class="some_menu_item">n2</li>
<li class="some_menu_item">n2</li>
</ul>
<div>
This is a question ?
This is a sentence .
... some other text ...
</div>
</body>
</html>
問題文件將充滿了:n1 n2 n3 This is a question
所以,我只是想知道,有沒有一種方法來解析JSoup標籤的標籤,所以我可以添加一個換行每次塊關閉?
如果您需要一些新的信息,請不要問!
編輯:我應該有3個輸出文件,這些文件,在這個例子中:
一個與所有的話
n1 n2 n3 This is a question sentence ... some other words ...
一個與所有的句子
This is a sentence
其中包含所有問題
This is a question
TimmyM
是的,您可以逐個遍歷標籤並單獨獲取文本。但是,我不太明白你在這裏做什麼。你能舉一個你想要的這個HTML的例子嗎? –