我想讀一個URL的R.內容(當量,http://www.haaretz.com/)我想知道我怎麼能做到這一點我怎樣才能讀取和解析網頁內容中的R
8
A
回答
21
不是真的知道你想怎麼處理該頁面,因爲它是非常的混亂。正如我們re-learned in this famous stackoverflow question,這不是一個好主意,做HTML正則表達式,那麼你肯定會想用XML封裝解析這個。
下面是一個例子,讓你開始:
require(RCurl)
require(XML)
webpage <- getURL("http://www.haaretz.com/")
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)
# parse the tree by tables
x <- xpathSApply(pagetree, "//*/table", xmlValue)
# do some clean up with regular expressions
x <- unlist(strsplit(x, "\n"))
x <- gsub("\t","",x)
x <- sub("^[[:space:]]*(.*?)[[:space:]]*$", "\\1", x, perl=TRUE)
x <- x[!(x %in% c("", "|"))]
這導致大多隻是網頁文本的特徵向量(連同一些JavaScript):
> head(x)
[1] "Subscribe to Print Edition" "Fri., December 04, 2009 Kislev 17, 5770" "Israel Time:Â 16:48Â (EST+7)"
[4] "Â Â Make Haaretz your homepage" "/*check the search form*/" "function chkSearch()"
3
您最好的選擇可能是XML包 - 例如參見previous question。
2
我知道你問的R 。但是也許python + beautifullsoup在這裏是前進的方向?然後用R做你的分析,你用美麗的珠子颳了屏幕?
相關問題
- 1. 我怎樣才能得到這個網頁的內容?
- 2. 我怎樣才能讀取使用Java Web內容?
- 3. 我怎樣才能平行解析python?
- 4. 我怎樣才能用Python解析GeoJSON
- 5. 我們怎樣才能讀取iphone
- 6. 我怎樣才能讀取熊貓
- 7. 我怎樣才能讀取JS
- 8. 我怎樣才能讀取在JavaScript
- 9. 我怎樣才能獲得R中
- 10. 我怎樣才能限制分析和顯示iphone中以前解析的內容?
- 11. 我怎樣才能打開和解析一個PNG像素點?
- 12. 我怎樣才能解碼中國
- 13. 我怎樣才能找到在R
- 14. 我怎樣才能把內容放在docx中的mergefield上
- 15. 我怎樣才能訪問webview中的多個內容android
- 16. PDF和PHP。我怎樣才能讀取現場數據?
- 17. 我怎樣才能
- 18. 我怎樣才能
- 19. 我怎樣才能
- 20. 我怎樣才能
- 21. 怎樣才能讀取XML項
- 22. 我怎樣才能訪問我的Facebook頁面的見解?
- 23. 怎樣才能打開多個網址,在C#中讀取
- 24. JAVA:我有地址;我怎樣才能打印它的內容?
- 25. 我怎樣才能從解析HTML中jquery.tmpl串
- 26. 我怎樣才能讀取C#中的多維數組?
- 27. 我怎樣才能加密和解密,然後Web.config文件內容
- 28. 如何讀取/解析動態生成的網頁內容?
- 29. 我怎樣才能打開新的標籤頁網頁JavaScript和中間點擊
- 30. 我怎樣才能只有一個我的網頁?
但如何才能得到正確去掉html標籤。我知道我可以編寫一個RegEx表達式,但是有沒有使編碼更加戲劇化的包? – Mark 2009-12-04 05:56:41