0
我想從此文本blob中提取數據。此文本包含製表符分隔的文本和xml標記的文本。我想提取xml blob併爲我的分析分別進行解析。從xml和製表符分隔的文本中提取數據
Text1 Text2 text3 text4 text4 <Assessment>
<Questions>
<Question>
<Id>1</Id>
<Key>Instructions</Key>
<QuestionText>Your Age</QuestionText>
<QuestionType>Label</QuestionType>
<Answer>16-30</Answer>
</Question>
</Questions>
</Assessment> text5
Text1 Text2 text3 text4 text4 <Assessment>
<Questions>
<Question>
<Id>1</Id>
<Key>Instructions</Key>
<QuestionText>Your Age</QuestionText>
<QuestionType>Label</QuestionType>
<Answer>31-49</Answer>
</Question>
</Questions>
</Assessment> text5
我已閱讀文本使用readlines
並做了以下操作。
tst<-gsub("^\\s+","", tst)
idx<-which(grepl("+<Assessment>+", tst))
tst[idx]<-"<Assessment>"
idx<-which(grepl("</Assessment>", tst))
tst[idx]<-"</Assessment>"
還沒有想出如何使用XML解析它。
請參見[如何做一個偉大的[R重現的問題(http://stackoverflow.com/questions/5963269 /如何對化妝一個偉大-R重現-例子)。你沒有發佈任何代碼。你實際上是在尋求代碼即服務。這不是什麼意思。你有什麼嘗試? – hrbrmstr