2012-09-26 47 views
5

任何人都可以提供一個指針或建議,以解決如何解析一個非常大的HTML流/文件。例如,我有一張大約270,000行的表格,我想一次將它帶入我的應用大約20k。 jsoup解析方法允許使用HTML片段,但我不清楚什麼可能是讀取表示此片段的XXX字節的最有效和最乾淨的方式。用Jsoup解析一個巨大的HTML流

任何幫助最受讚賞。

回答

0

如果是XHTML,並且不需要一次將所有內容保存在內存中,更好的辦法可能是使用SAX解析器並使用開始和結束標記事件選取需要的數據。

另一個想法可能是StAX解析器。

+0

只是普通的HTML。 – rkd80