2010-04-12 77 views
0

我已經查看了jTidy將格式錯誤的/真實世界的HTML轉換爲格式良好的HTML/XHTML。但是,最新版本中存在一個錯誤,因此我無法使用它。我在看Jericho,因爲它對網絡有很多積極的評論。在Java中使用Jericho HTML解析器檢索格式良好的HTML

但是,它不是立即明顯給我一個將如何去實現的方法,如:

public String getValidHTML(String messedUpHTML)

舉例來說,如果它是通過<div>bar,它將返回<div>bar</div>

任何指針會有幫助。

在此先感謝!

回答

1

Jericho's HTMLSanitiser sample可能是一個好的開始。

但是,請記住,傑里科的主要優勢是它的分析和操作畸形HTML的能力,同時保持原來的「壞」的格式。然而,看看圖書館如何執行這樣的任務會很有趣。

+0

謝謝。我將從此開始。雖然我認爲這會很痛苦。 – ragebiswas 2010-04-14 12:11:01