2013-08-18 71 views
0

我是一個相當新手與XML。我在R中使用XML來解析xml中的內容並將其放入R對象中。我必須處理近1TB的XML數據,並花了我大約5個小時來解析2.4 GB數據。我知道xmlschema用於生成xml。我想知道是否有更好的方法將xml轉換爲數據,或者使用另一種方法來使用xmlschema來讀取xml並將值放回到xmlParse以外的原始數據中? 我現在有5個xmlschema和xml。 (我認爲它是複雜XML)xml架構在R

  • 的xmlns:nxce = 「http://tfm.faa.gov/tfms/NasXCoreElements」
  • 的xmlns:MMD =「http://tfm.faa.gov/TFMS/MessageMetaData」
  • 的xmlns:nxcm = 「http://tfm.faa.gov/tfms/NasXCommonMessages」
  • 的xmlns:IDR = 「http://tfm.faa.gov/tfms/TFMS_IDRS」
  • 的xmlns:XIS = 「http://tfm.faa.gov/tfms/TFMS_XIS」
  • 的xmlns:的xsi = 「http://www.w3.org/2001/XMLSchema-instance」
  • XSI:的schemaLocation =「http://tfm.faa.gov/tfms/TFMS_XIS

樣本數據:http://www.fly.faa.gov/ASDI/asdidocs/asdi_sample_data.zip 我想提取所有flightManagementInfomation數據提前出局使用SAX

感謝。

+5

使用[事件解析](http://stackoverflow.com/questions/7536754/storing-specific-xml-node-values-with-rs-xmleventparse/7547433#7547433)模型可能是內存和時間效率;您需要提供更多詳細信息,但同時需要一個[可重現的示例](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) –

+1

Schema使用不會提高XML加載的性能 - 它們會告訴您一些有關解析XML的預期結構的信息,但與解析過程本身無關。 – MiMo

回答

0

模式使用不會提高XML加載的性能 - 它告訴你一些關於解析XML的預期結構,但與解析過程本身無關。

您需要使用不同的解析器 - 如果一個被設定爲R可用(馬丁的建議),或XML數據轉換成的東西,R能夠處理更容易使用一些其他語言