2013-03-20 42 views
0

我試圖從瀏覽器中讀取源代碼,但是當代碼中有像ã,á,à,õ這樣的字符時,我會得到 。閱讀網站來源: 字符

我試圖在讀取行上應用java.nio.Charset.encode,但沒有結果:發生同樣的事情。

我的代碼是:

URLConnection connection = ...; 
BufferedReader reader = new BufferedReader(connection.getInputStream()); 
String s = null; 

while ((s = reader.readLine()) != null) { 
    // got new source line... 
} 

我試圖讀取該網站是this one(PT-BR)。

回答

2

根據meta標籤,該頁面上的字符集是ISO-8859-1。嘗試使用:

Scanner scanner = new Scanner(connection.getInputStream(), "ISO-8859-1");