應該使用什麼html解析器？

我正在研究一個產品，我需要解析一個HTML文檔。我尋找Jericho，TagSoup，Jsoup和Crawl4J。我應該使用哪個解析器來解析HTML，因爲我需要在使用石英的多線程環境中運行此過程？應該使用什麼html解析器？

一次，如果10個線程在內存中運行，那麼我需要一個消耗更少內存的API。在jericho中，我在某處讀到它是基於文本的搜索API並消耗較少的內存。我對嗎？或者我應該去爲其他，爲什麼？

2012-09-11 vaibought

測試它們並檢查它們的內存佔用情況。如果不知道和測試您要解析的HTML，很難對內存配置文件進行預測。

FFIW，我已經在許多不同的系統中使用了Jsoup，我發現它工作得很好。我從來沒有注意到它有任何猖獗的內存問題。

2012-09-11 11:41:26 pap

我「米使用JSoup，我非常深刻的印象，它是邪惡的快的解析，以及它的CSS樣式的內容模式匹配是非常容易的維護比的XPath。

我第一次嘗試Validator.nu的解析器，並發現它非常缺乏的文檔是非常薄的，我無法得到正常執行，在瀏覽器工作正常的XPath

此外，檢查出這個問題：。Which HTML Parser is the best?

2014-01-03 18:28:56

回答