2017-09-20 19 views
0

我有一個保存在包含XML的.txt文件中的數據。它有大約35k行,第一行作爲頭,我想將這些數據提取到一個數據幀。使用R讀取保存在文本文件中的xml數據

我使用readlines方法來將數據讀入R.從數據摘錄看起來像如下:

[1] "H|TASK_ID|TASK_REFERENCE|TASK_NAME|TASK_TYPE|TASK_RAISED_TS|TASK_STATE|TASK_VIEWED_FLAG|TASK_OUTCOME|CURRENT_QUEUE|QUEUE_CHANGE_TS|TASK_XML_DATA|SCORE_XML_DATA|CREATED_TS|CREATED_BY|LAST_UPDATED_TS|LAST_UPDATED_BY|VERSION_NO|TASK_ADOPTED_FLAG" 

[2] "B|\"12\"|\"137####_2A62###\"|\"137####_2A62###\"|\"Claim\"|\"14APR2015:23:36:04\"|\"AwaitingTriageEast\"|\"N\"|\" \"|\"4\"|\".\"|\"<?xml version=\"1.0\" encoding=\"UTF-8\"?><tasks xmlns=\"xyz.com/network/workbench/task\"><task><taskxml><Claim prDocumentIdentifier=\"137####_2A62###\"><ID>519_1</ID><ClaimNumber>137####_2A62###</ClaimNumber><SearchClaimNumber>2A62###</SearchClaimNumber><PolicyNumber>28352##_SP23A2####</PolicyNumber><SearchPolicyNumber>SP23A2####</SearchPolicyNumber><AmendmentNumber>5007####</AmendmentNumber><AmendmentDatetime>2016-10-31T14:44:02</AmendmentDatetime><FreeTextDescription>INS PASSENGER IN UNINSURED AUTOMOBILE THAT VEERED OFF THE RD INTO A DITCH</FreeTextDescription><ClaimCauses><ClaimCause><ActualValue>THIRD PARTY STRUCK INSURED'S PARKED VEHICLE</ActualValue><Category>MOTOR_ACCIDENT_TP_HIT_FP</Category></ClaimCause></ClaimCauses><IncidentDate>2006-10-13</IncidentDate><IncidentTime>14:30:00.000</IncidentTime><IncidentDateTime>2006-10-13T14:30:... <truncated> 

如何從這裏着手,使數據幀?我是XML相關軟件包的新手。所以任何幫助,高度讚賞。

+0

數據似乎|管道分離而不是xml。是這樣嗎? – amrrs

+0

至少有一個字段中存在XML。 – hrbrmstr

+0

@amrrs - 數據用一些包含xml的列進行管道分隔。 – Debbie

回答

0

前提是你的數據在文件「df.txt」。然後只需用sep =「|」讀取表格像:

df = read.table("df.txt", sep="|") 
+0

@ Aleksandr - 感謝指針。現在我就在掃描(文件=文件的錯誤'的錯誤,什麼什麼= 09月=月,報價=報價,DEC =月,: 線368沒有19個elements'如何跳過這些具體而行讀取數據 – Debbie

+0

嘗試添加標題= TRUE,填寫= TRUE函數read.table即( 「df.txt」 09月= 「|」,標題= TRUE,填寫= TRUE)? –

+0

@亞歷山大 - 這就像一個魅力不過。 ,數據框中的兩列仍然是XML格式,其中一個如下所示:'<?xml version = \「1.0 \」encoding = \「UTF-8 \」?><權利要求prDocumentIdentifier = \」 137 #### _ 2A6 2 ### \「> 519_1 137 #### _ 2A62 ###< SearchClaimNumber> 2A62 ### 28352 ## _ SP23A2 #### SP23A2 ####'。在任何關於如何從這些列中提取有用信息的指針? – Debbie

相關問題