處理HTML網頁刮R中的錯誤與XML封裝

我想湊網頁http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html像這樣的，並使用下面的代碼，我收到錯誤提示HTML是不正確的：處理HTML網頁刮R中的錯誤與XML封裝

library(RCurl) 
library(XML) 
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html") 
doc <- htmlParse(weather)

我看過this的帖子，它演示瞭如何使用Internet Explorer和rcom包來修復不正確的HTML，然後將它提供給解析器。但是，有關的HTML通過了http://validator.w3.org驗證。

還有什麼其他方式來處理與XML包一樣的HTML分析相關錯誤？

來源

2012-07-28 digitalmaps

給這個一掄，看看它做你追求的：

library(RCurl) 
library(XML) 
url <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html" 
doc <- htmlTreeParse(url, useInternalNodes=TRUE)

我也建議你看看這些資源：

來源

2012-07-29 00:11:03

簡單的解決方案 - 所以我實際上沒有遇到錯誤，而是使用工具不正確LY。 – digitalmaps 2012-07-29 01:34:05

處理HTML網頁刮R中的錯誤與XML封裝

回答

相關問題