我試圖從http://www.kavita-ganesan.com/entity-ranking-data解析無效的XML中的R
提供的數據存儲庫解析汽車檢討數據集是格式化爲
<DOC>
<DATE>Some Text</DATE>
<AUTHOR>Some Text</AUTHOR>
<TEXT>Some Text</TEXT>
<FAVORITE>Some text</FAVORITE>
</DOC>
<DOC>
<DATE>Some Text</DATE>
<AUTHOR>Some Text</AUTHOR>
<TEXT>Some Text</TEXT>
<FAVORITE>Some text</FAVORITE>
</DOC>
.....
一系列包含的文本文件。這是不是有效的XML儘管它看起來像XML。
我想通過在文本的開始和結尾添加標籤<file>
和</file>
以強制它成爲有效的XML。
library(XML)
#read the file and append the tags
file = c("<file>",readLines("2007/2007_nissan_versa"),"</file>")
#remove invalid characters
file = gsub(pattern = "[&\"\']",replacement = "",x = file)
xmlParse(file)
它的工作,然後它可以通過XMLPARSE解析,但是,我不知道是否有一個更優雅的解決方案在那裏。
對我來說看起來不錯/優雅。 –
謝謝@Aurèle。但我想知道是否有更高效的解決方案,不需要兩次讀取數據並使用gsub。 – comendeiro