2010-01-27 66 views
0

(我已經看到了類似的問題,但我認爲他們沒有滿足我的特定需求,所以......)Java庫,用於分析HTML

我想知道是否有一個Java庫,用於分析現實世界(閱讀:不完整,格式不正確)的HTML。通過分析,我的意思的東西,如:

  • 在HTML塊
  • 找出最突出的顏色改變這種顏色到其他顏色(因此,必須支持HTML的修改以及)
  • 修剪掉不需要的標籤
  • 固定了HTML導致一個良好的HTML片段中最後兩個

的部分由庫,如傑里科,和jTidy完成。在這些之上的'插件'會很棒。

在此先感謝!

+0

好吧,經過一些分析,似乎我在上面的第一個問題中要求的是不是現成的:( 必須考慮一些光滑的算法... – ragebiswas 2010-01-28 10:38:14

回答

1

查看JTidy,Java端口號爲HTML Tidy。它將根據您選擇的選項來修復非格式良好的HTML並進行清理。

你需要別的東西來換色。

+0

謝謝。我知道jTidy 。我正在尋找一些可以對HTML片段進行更多語義分析的東西 – ragebiswas 2010-01-27 14:03:57

2

那麼我會先把它整理成有效的XML,然後使用XSLT做一個有條件的深層複製,在那裏我會做最突出的顏色/修剪/你需要的任何處理。

0

也許你會發現在this list東西(嘗試TagSoup,NekoHTML,VietSpider的HTMLParser)。