(我已經看到了類似的問題,但我認爲他們沒有滿足我的特定需求,所以......)Java庫,用於分析HTML
我想知道是否有一個Java庫,用於分析現實世界(閱讀:不完整,格式不正確)的HTML。通過分析,我的意思的東西,如:
- 在HTML塊
- 找出最突出的顏色改變這種顏色到其他顏色(因此,必須支持HTML的修改以及)
- 修剪掉不需要的標籤
- 固定了HTML導致一個良好的HTML片段中最後兩個
的部分由庫,如傑里科,和jTidy完成。在這些之上的'插件'會很棒。
在此先感謝!
(我已經看到了類似的問題,但我認爲他們沒有滿足我的特定需求,所以......)Java庫,用於分析HTML
我想知道是否有一個Java庫,用於分析現實世界(閱讀:不完整,格式不正確)的HTML。通過分析,我的意思的東西,如:
的部分由庫,如傑里科,和jTidy完成。在這些之上的'插件'會很棒。
在此先感謝!
你可能想看看TagSoup:
我會研究這個,謝謝! – ragebiswas 2010-01-27 14:04:48
沒有一個庫提供語義分析太多,但投票贊成,因爲Tagsoup確實令人印象深刻 – ragebiswas 2010-03-15 11:57:02
謝謝。我知道jTidy 。我正在尋找一些可以對HTML片段進行更多語義分析的東西 – ragebiswas 2010-01-27 14:03:57
那麼我會先把它整理成有效的XML,然後使用XSLT做一個有條件的深層複製,在那裏我會做最突出的顏色/修剪/你需要的任何處理。
也許你會發現在this list東西(嘗試TagSoup,NekoHTML,VietSpider的HTMLParser)。
好吧,經過一些分析,似乎我在上面的第一個問題中要求的是不是現成的:( 必須考慮一些光滑的算法... – ragebiswas 2010-01-28 10:38:14