2010-04-19 92 views
0

我是解析器的新手。我喜歡從網站獲取特定數據。我需要使用解析器。如何開始解析器?我需要下載什麼? 代碼是用Java中的解析器從網站獲取數據的代碼是什麼?Java代碼中的解析器入門

回答

0

我的建議是使用一個開源的HTML解析器如HTMLCleaner - http://htmlcleaner.sourceforge.net/

可以使用HTMLCleaner(或類似)來創建Web頁面的DOM表示,然後用它來提取任何信息你想從網頁。

的過程看起來是這樣的:

URL url = new URL("website you want to load"); 
HTMLCleaner h = new HTMLCleaner(); 
TagNode HtmlNode = h.clean(url.openStream()); 
//perform queries on the DOM to extract information