0
使用R和XML包(xmlTreeParse等)我盡我所能從xml文件中讀取特定節點而沒有成功。以下XML示例虛設表示我使用的數據:R:從XML數據中提取特定的節點內容
<item>
<title> Mickey Mouse </title>
<description> Cartoon </description>
<pubDate> 25 Apr 1965 </pubDate>
<disney:Filing web="http://www.waltdisney.com/archives">
<disney:fileNumber>125364</disney:fileNumber>
<disney:assignedID>7389</disney:assignedID>
<disney:Files>
<disney:File disney:set="1" disney:file="abc.mov" disney:type="B&W"/>
<disney:File disney:set="2" disney:file="def.mov" disney:type="Col"/>
<disney:File disney:set="3" disney:file="wzt.mov" disney:type="B&W"/>
</disney:Files>
</disney:Filing>
</item>
我施加xpathApply成功提取第一三個節點。但我無法到達標有「迪士尼:文件」的節點。出於某種原因,迪斯尼之外的任何事情:文件是不可讀的(「不可見」)。
我的目標是要麼提取所有的迪士尼:文件行成一個數據框或更漂亮:首先搜索特定的迪士尼:設置和提取從這個節點單獨到數據框的所有信息。任何幫助都會非常棒。提前致謝!
你需要在你的XPath使用的命名空間。有關更多詳細信息,請參閱'xmlNamespaces'。沒有問題的XML文件和我們不能幫助的命名空間定義。例如,可以使用'xpathSApply(doc,'// */disney:File',xmlValue)',但可能會有其他名稱空間。 – jdharrison
如果你真的想要做的是得到'disney:File'數據,並且相當確定它們將在單行上,'readLines' +'grep' +'str_extract'可能就足夠了。不需要因爲XML而進行緩慢/浪費內存的樹解析。當然,對於更復雜的提取(如果你對每個文件進行多個數據提取類型的話),那麼XML解析就很有意義。 – hrbrmstr
感謝你們兩位,@ jdharrison和hrbrmstr。我去readLines等,因爲這個任務似乎更簡單,更直接。很好的幫助! – PBolbrinker