2015-01-11 53 views
0

我想通過使用readHTMLTable從HTML網站獲取一些數據。在R包中的報廢錯誤readHTMLTable:錯誤在make.names無效的多字節字符串

網頁包含一些中文的utf-8代碼,所以它通常會給我一些錯誤。

首先嚐試:

u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030" 
url = htmlParse(u) 
tbls = readHTMLTable(u,asText= TRUE) 

dat <- data.frame(tbls) 

錯誤:錯誤make.names(vnames,獨特= TRUE):無效的多字節字符串5

+1

'htmlParse'具有'encoding'參數 – hrbrmstr

+0

@ hrbrmstr,那麼如何解決它? – zhouzilong

回答

-1

的解決方案是增加的說法encoding = "UTF-8",在我的情況,到這些功能或連接。更一般地說,在解析之前提供默認編碼或鉤子可能是一個更強大的解決方案。

URL = htmlParse(基本URL,編碼= 「GB2312」) 表= readHTMLTable(URL,標題=,其中= 1時,編碼= 「UTF-8」)