2012-04-19 76 views
0

已經有很多關於確定文本文件和網頁的字符編碼的討論。使用異步的App Engine上的網頁charcode提取UrlFetch

對於網頁,它似乎最好/簡單的方法是使用一個庫,它將Url作爲輸入並返回正確編碼的字符串。由於庫正在獲取文檔,因此可以使用HTTP標頭來幫助確定編碼。

  1. http://htmlcleaner.sourceforge.net/download
  2. How do you Programmatically Download a Webpage in Java
  3. character encoding in a web page using java
  4. http://docs.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html

如果我們想獲取使用網址抓取特別是異步API文檔,最新最好的辦法,圖書館嗎?用於確定編碼。

是否有與異步urlfetch集成(或可以很容易地修改爲集成)的任何庫?

回答

0

隨着URLFetch你會得到一個HTTPResponse在那裏你可以使用getHeaders(),獲得list of headers.查找Content-Type,爲網頁就應該像text/html; charset=UTF-8,其中charset是你的字符集編碼。

相關問題