我需要使用Java從土耳其網頁抓取HTML。但是,我發現我的Java代碼無法拾取某些土耳其字符。下面是我使用的Java代碼:使用Java獲取HTML - 某些字符未正確提取
import java.io.BufferedInputStream;
import java.io.DataInputStream;
import java.io.InputStream;
import java.net.URL;
public class fetchHTML {
public static void main(String[] args) throws Exception {
URL urls = new URL("http://www.parkbravo.com.tr/pantolon.php");
InputStream is = urls.openStream();
DataInputStream dis = new DataInputStream(new BufferedInputStream(is));
String line;
while ((line = dis.readLine()) != null) {
System.out.println(line);
}
}
}
這段代碼的輸出的前幾行:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd" />
<html lang="tr" xmlns:og="http://opengraphprotocol.org/schema/" xmlns:fb="http://www.facebook.com/2008/fbml">
<head>
<title>ParkBravo - Ãrünler - Pantolonlar</title>
你可以看到,標題是不正確的:Ãrünler應該Ürünler
如果我用下面的Python代碼來獲取HTML:
import urllib2
url = 'http://www.parkbravo.com.tr/pantolon.php'
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
print data
則輸出是正確的。標題出現爲:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd" />
<html lang="tr" xmlns:og="http://opengraphprotocol.org/schema/" xmlns:fb="http://www.facebook.com/2008/fbml">
<head>
<title>ParkBravo - Ürünler - Pantolonlar</title>
但我希望能夠用Java獲得HTML。有誰知道我如何才能使這個工作?
謝謝!
謝謝,這有助於 – Andrew 2012-03-10 15:37:01