2010-09-13 107 views
2

我從不同的RSS/ATOM提要中提取數據,有時我收到的HTML數據包含HTML標籤,但它們沒有貼標籤或其他問題,並且它將頁面佈局/樣式擰緊。消毒HTML數據

有些類名/ ID衝突。有什麼方法可以消毒嗎?

如果有人能指點我一些可靠的Javascript/Java實現。

+0

夥計們,這一個似乎工作http://phpjs.org/functions/strip_tags:535 如果您有任何其他建議,請讓我知道。 謝謝:) – 2010-09-13 01:24:34

回答

1

您可以試一試JTidy

JTidy可以用作清理格式錯誤和錯誤的HTML的工具。

另一種選擇是在網絡上找到HTML Cleaner

HTML通常是髒的,病態的,不適合進一步的處理。對於這些文件的任何嚴重消耗,首先必須清理混亂並將訂單帶到標籤,屬性和普通文本。對於給定的HTML文檔,HtmlCleaner對單個元素進行重新排序並生成格式良好的XML。默認情況下,它遵循大多數Web瀏覽器用於創建文檔對象模型的類似規則。但是,用戶可以爲標籤過濾和平衡提供自定義標籤和規則集。

0

我已經使用NekoHTML取得了巨大成功。它只是Apache解析器上的一個薄層,它將其置於錯誤糾正模式,這是一個非常棒的架構,每當Apache變得更好時,Neko也會變得更好。並且沒有大量額外的代碼。