2013-12-19 24 views
2

在java中,我試圖讀取一個網頁。我只想打印頁面的數據。但我的代碼是打印整個HTML代碼。它看起來很奇怪。我可以看到我希望它隱藏在html中的確切數據。我如何擺脫打印HTML代碼? 這裏是我的代碼:如何從網頁打印數據?不是頁面的html代碼。

URL url = new URL("http://www.rxbd.info/Controller/Controller?action=details&drug=zorubicin&group=generic"); 
URLConnection con = url.openConnection(); 
InputStream is =con.getInputStream(); 
BufferedReader br = new BufferedReader(new InputStreamReader(is)); 
String line = null; 
while ((line = br.readLine()) != null) { 
    System.out.println(line); 
} 
+2

看看JSoup –

回答

1

看一看JerichoRenderer類可以將原始HTML呈現爲文本,TextExtractor類可以僅提取文本。