2012-09-11 68 views
2

我正在研究一個產品,我需要解析一個HTML文檔。我尋找Jericho,TagSoup,Jsoup和Crawl4J。我應該使用哪個解析器來解析HTML,因爲我需要在使用石英的多線程環境中運行此過程?應該使用什麼html解析器?

一次,如果10個線程在內存中運行,那麼我需要一個消耗更少內存的API。在jericho中,我在某處讀到它是基於文本的搜索API並消耗較少的內存。我對嗎?或者我應該去爲其他,爲什麼?

回答

2

測試它們並檢查它們的內存佔用情況。如果不知道和測試您要解析的HTML,很難對內存配置文件進行預測。

FFIW,我已經在許多不同的系統中使用了Jsoup,我發現它工作得很好。我從來沒有注意到它有任何猖獗的內存問題。

0

我「米使用JSoup,我非常深刻的印象,它是邪惡的快的解析,以及它的CSS樣式的內容模式匹配是非常容易的維護比的XPath。

我第一次嘗試Validator.nu的解析器,並發現它非常缺乏的文檔是非常薄的,我無法得到正常執行,在瀏覽器工作正常的XPath

此外,檢查出這個問題:。Which HTML Parser is the best?

相關問題