2012-09-10 64 views
2

尋找TagSoup和JSoup之間關於真實世界文檔的性能比較。到目前爲止,我一直在使用TagSoup進行HTML處理,並且它工作得很好。唯一的缺點是由於SAX本質,應該使用堆棧以編程方式完成大量的工作(例如用於處理帶有標記的文本)。 JSoup看起來更簡潔 - 但我關心的是性能。TagSoup vs JSoup :: Performance?

回答

0

TagSoup website狀態:

有各種用Java編寫的其他HTML SAX解析器,特別是NekoHTML,JTidy(C庫和工具HTML整潔的端口),以及HTML解析器。所有這些都有其優點和缺點:圍繞Web的普遍看法似乎是TagSoup是最慢的,但也是最穩健和可靠的。

我試着創建一個應用程序,它將使用jsoup和5個頁面使用TagSoup解析5個頁面併發布時間。不幸的是,我不知道如何使用TagSoup 1.2.1將網頁返回到DOM,這使得蘋果與蘋果的比較變得困難。