我有一個保存在包含XML的.txt文件中的數據。它有大約35k行,第一行作爲頭,我想將這些數據提取到一個數據幀。使用R讀取保存在文本文件中的xml數據
我使用readlines方法來將數據讀入R.從數據摘錄看起來像如下:
[1] "H|TASK_ID|TASK_REFERENCE|TASK_NAME|TASK_TYPE|TASK_RAISED_TS|TASK_STATE|TASK_VIEWED_FLAG|TASK_OUTCOME|CURRENT_QUEUE|QUEUE_CHANGE_TS|TASK_XML_DATA|SCORE_XML_DATA|CREATED_TS|CREATED_BY|LAST_UPDATED_TS|LAST_UPDATED_BY|VERSION_NO|TASK_ADOPTED_FLAG"
[2] "B|\"12\"|\"137####_2A62###\"|\"137####_2A62###\"|\"Claim\"|\"14APR2015:23:36:04\"|\"AwaitingTriageEast\"|\"N\"|\" \"|\"4\"|\".\"|\"<?xml version=\"1.0\" encoding=\"UTF-8\"?><tasks xmlns=\"xyz.com/network/workbench/task\"><task><taskxml><Claim prDocumentIdentifier=\"137####_2A62###\"><ID>519_1</ID><ClaimNumber>137####_2A62###</ClaimNumber><SearchClaimNumber>2A62###</SearchClaimNumber><PolicyNumber>28352##_SP23A2####</PolicyNumber><SearchPolicyNumber>SP23A2####</SearchPolicyNumber><AmendmentNumber>5007####</AmendmentNumber><AmendmentDatetime>2016-10-31T14:44:02</AmendmentDatetime><FreeTextDescription>INS PASSENGER IN UNINSURED AUTOMOBILE THAT VEERED OFF THE RD INTO A DITCH</FreeTextDescription><ClaimCauses><ClaimCause><ActualValue>THIRD PARTY STRUCK INSURED'S PARKED VEHICLE</ActualValue><Category>MOTOR_ACCIDENT_TP_HIT_FP</Category></ClaimCause></ClaimCauses><IncidentDate>2006-10-13</IncidentDate><IncidentTime>14:30:00.000</IncidentTime><IncidentDateTime>2006-10-13T14:30:... <truncated>
如何從這裏着手,使數據幀?我是XML相關軟件包的新手。所以任何幫助,高度讚賞。
數據似乎|管道分離而不是xml。是這樣嗎? – amrrs
至少有一個字段中存在XML。 – hrbrmstr
@amrrs - 數據用一些包含xml的列進行管道分隔。 – Debbie