我一直惡癖關上Scraping html tables into R data frames using the XML package很有幫助響應颳去一些HTML從網上和R.通過R XML包生成分析字符串?
使用它的XML包似乎是相當徹底的有關文本字符串逃逸非字母字符。有沒有一種簡單的方法在XML或一些其他包會顛倒一些/所有的字符轉義,通過XML傳遞我的數據呢?我開始做我自己,但遇到像'代表JoaquÃÂn卡斯特羅的思想情況後,「必須有一個更好的解決辦法......」
只是爲了清楚起見,使用XML封裝解析這個HTML
library(XML)
apos_str <- c("<b>Tim O'Reilly</b>")
apos_str.parsed <- htmlTreeParse(apos_str, error=function(...){})
apos_str.parsed$children$html[[1]][[1]]
會產生
<b>Tim O'Reilly</b>
,我會非常喜歡,將搜索該
'
0123函數或包
,並把它放回
'<b>Tim O'Reilly</b>'
編輯爲了澄清,從下面的評論中,我得到了如何爲撇號的具體情況,或其他任何字符我在數據看到這一點。我正在尋找的是一個包裝,其中有人已經更普遍地解決了這個問題。
研究,我這樣做的遠:
- 讀取了所有我能找到的XML documentation上逃跑。
在CRAN NLP page上尋找有前途的包裝。
- 在SO上搜索'unescape [R]'和'reverse escape [R]'。 無法取得任何進展,所以我想在這裏提出問題。
對不起,如果我不清楚。撇號很簡單,我可以通過sub或stringr來完成;我基本上想知道是否有更好的解決方案可以處理許多不同的逃脫角色(包括'JoaquínCastro' - >'JoaquínCastro') – Andrew 2012-08-12 19:11:28
所以,我問,如果有人已經這樣做了,包括奇怪的我不會立即想到的邊緣案例。在問題中我明確表達了這一點,我顯然做得不好。 – Andrew 2012-08-12 19:12:36