2014-10-20 13 views
1

我有一個Java分配來製作一個簡單的GUI Web瀏覽器,它接收URL的主機名和文件路徑,並通過套接字將其發送到Web服務器。然後Web服務器返回網頁的內容。將這些數據轉換爲字符串後,我需要先刪除<body></body>標記之外的所有內容,然後刪除這些內容中的所有標記,以僅顯示用戶想要查看的文本內容。我試圖使用string.split方法在<body></body>之後進行兩次拆分,但出於某種原因,我得到了一個超出界限的異常。我很推動時間,所​​以如果有人知道一個簡單的方法來做到這一點,我將不勝感激。如何修剪網頁的HTML以移除標籤並僅在Java中顯示文本內容?

+0

這將有助於,如果我們知道你的GUI網頁瀏覽器是寫在.. – Winter 2014-10-20 04:52:05

+0

哎呀。我很匆忙。 Java – Kyle 2014-10-20 05:01:11

+1

看看這裏:http://stackoverflow.com/a/8282951/2696690 – Winter 2014-10-20 05:05:59

回答

0

不要用分裂/正則表達式的HTML數據。如果你想正確地使用HTML,有幾乎幾乎需要使用的庫。

這種最知名的圖書館之一是JSoup。當您將它集成到你的項目,你可以得到你的元素,例如數據這樣

Document doc = Jsoup.parse(html); //where html is your source 
Element divs = doc.select("div"); 
for(Element div : divs){ 
    System.out.println(div.text()); 
} 

有很多自己的頁面上示例和教程。請務必查看their cookbook

相關問題