您必須設置正確的編碼。您可以在HTTP頭中的編碼:
Content-Type: text/html; charset=ISO-8859-1
這可以在(X)HTML文檔中被覆蓋,見HTML Character encodings
我可以想像,你必須要考慮到標準桿一許多不同的其他問題網頁錯誤免費。但是Java有不同的HTTP客戶端庫可用,例如org.apache.httpcomponents
。該代碼將是這樣的:
DefaultHttpClient httpclient = new DefaultHttpClient();
HttpGet httpGet = new HttpGet("http://www.spiegel.de");
try
{
HttpResponse response = httpclient.execute(httpGet);
HttpEntity entity = response.getEntity();
if (entity != null)
{
System.out.println(EntityUtils.toString(entity));
}
}
catch (ClientProtocolException e) {e.printStackTrace();}
catch (IOException e) {e.printStackTrace();}
這是Maven構件:
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.1.1</version>
<type>jar</type>
<scope>compile</scope>
</dependency>
這聽起來就像是由於字符集,你可以提供的InputStreamReader()。什麼字符不可顯示? – 2011-05-31 14:16:39
爲什麼不使用jsoup來代替? – Sorter 2013-11-07 05:39:09