2012-07-28 53 views
0

我想湊網頁http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html像這樣的,並使用下面的代碼,我收到錯誤提示HTML是不正確的:處理HTML網頁刮R中的錯誤與XML封裝

library(RCurl) 
library(XML) 
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html") 
doc <- htmlParse(weather) 

我看過this的帖子,它演示瞭如何使用Internet Explorer和rcom包來修復不正確的HTML,然後將它提供給解析器。但是,有關的HTML通過了http://validator.w3.org驗證。

還有什麼其他方式來處理與XML包一樣的HTML分析相關錯誤?

回答

2

給這個一掄,看看它做你追求的:

library(RCurl) 
library(XML) 
url <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html" 
doc <- htmlTreeParse(url, useInternalNodes=TRUE) 

我也建議你看看這些資源:

  1. talkstats.com thread on web scraping (great beginner examples)
  2. w3schools.com site on html stuff (very helpful)
+0

簡單的解決方案 - 所以我實際上沒有遇到錯誤,而是使用工具不正確LY。 – digitalmaps 2012-07-29 01:34:05