2015-12-15 72 views
0

我想從此文本blob中提取數據。此文本包含製表符分隔的文本和xml標記的文本。我想提取xml blob併爲我的分析分別進行解析。從xml和製表符分隔的文本中提取數據

Text1 Text2 text3 text4 text4 <Assessment> 
    <Questions> 
    <Question> 
     <Id>1</Id> 
     <Key>Instructions</Key> 
     <QuestionText>Your Age</QuestionText> 
     <QuestionType>Label</QuestionType> 
     <Answer>16-30</Answer> 
    </Question> 
    </Questions> 
</Assessment> text5 
Text1 Text2 text3 text4 text4 <Assessment> 
    <Questions> 
    <Question> 
     <Id>1</Id> 
     <Key>Instructions</Key> 
     <QuestionText>Your Age</QuestionText> 
     <QuestionType>Label</QuestionType> 
     <Answer>31-49</Answer> 
    </Question> 
    </Questions> 
</Assessment> text5 

我已閱讀文本使用readlines並做了以下操作。

tst<-gsub("^\\s+","", tst) 
idx<-which(grepl("+<Assessment>+", tst)) 
tst[idx]<-"<Assessment>" 
idx<-which(grepl("</Assessment>", tst)) 
tst[idx]<-"</Assessment>" 

還沒有想出如何使用XML解析它。

+0

請參見[如何做一個偉大的[R重現的問題(http://stackoverflow.com/questions/5963269 /如何對化妝一個偉大-R重現-例子)。你沒有發佈任何代碼。你實際上是在尋求代碼即服務。這不是什麼意思。你有什麼嘗試? – hrbrmstr

回答

相關問題