2
我有兩個大型(> 100MB,每個數百萬行)XML文件,其結構如下。Powershell - 比較兩個大型XML文件的部分
<?xml version='1.0' encoding='UTF-8'?>
<index>
<doc id='0'>
<field name='PART' norm='-1' flags='Idfp--S--Ni08--------'>
<val>12345-678</val>
</field>
<field name='DESCRIPTION' norm='-1' flags='Idfp--S--Ni08--------'>
<val>Part XYX123 Description</val>
</field>
<field name='QTY' norm='-1' flags='Idfp--S--Ni08--------'>
<val>18</val>
</field>
<field name='VENDOR' norm='-1' flags='Idfp--S--Ni08--------'>
<val>ACME</val>
</field>
<field name='MFG' norm='-1' flags='Idfp--S--Ni08--------'>
<val></val>
</field>
</doc>
<doc id='1'>
<field name='PART' norm='124' flags='Idfp--S--Ni08--------'>
<val>ABCD-1234</val>
</field>
<field name='DESCRIPTION' norm='-1' flags='Idfp--S--Ni08--------'>
<val>PART ABCD Description</val>
</field>
<field name='QTY' norm='-1' flags='Idfp--S--Ni08--------'>
<val>4</val>
</field>
<field name='VENDOR' norm='-1' flags='Idfp--S--Ni08--------'>
<val></val>
</field>
<field name='MFG' norm='-1' flags='Idfp--S--Ni08--------'>
<val></val>
</field>
</doc>
</index>
我需要找到一個項目,而不是另一個,反之亦然。最初,我只想比較屬性PART
的值,但還想比較其他值(描述等)。
我想,以確定是否有什麼在xmlfile1:
index/doc/field name=part/val - 12345-678
也xmlfile2。如果不是,請將其寫入文本/ csv文件。
我試過使用Compare-Object
& Get-Content
,但我遇到的其中一個問題是每個XML文件中的其他屬性。這兩個XML文件可能有
index/doc/field name=part/val - 12345-678
,但不同的是,xmlfile1可能有不同的值常態&標誌比xmlfile2屬性。這使得使用Compare-Object
& Get-Content
標記一切。
使用Powershell,您將如何進行比較忽略「噪音」屬性,但只匹配PART
屬性的<value>
?
EDIT
爲了澄清 - 第二XML文件將是幾乎相同所示。然而 - 什麼可能是不同的是<doc id='0'>
在任何XML中,<field name='PART'
將是相同的,但其他屬性norm='-1'
和flags='Idfp--S--Ni08--------'>
可能會在每個不同。我想查找PART屬性,忽略field
中的其餘屬性,並確定<val>
中的內容是否存在於第二個XML文件中。
你有沒有xmlfile2的樣本?你如何知道要比較哪些元素?既然你說PART-MAY可能是一樣的,那就沒用了。什麼是靜態的?文檔ID的靜態? –
@ FrodeF.-爲了清晰起見,我添加了一些更多信息。屬性'name'將是靜態的,但其他('norm','flags')可能具有不同的值。在屬性'name = PART'中,我想確定''中的內容是否在XML文件2中。忽略該行中其餘的屬性。此外,'
就像我說的,有可能是一個更有效答案,但這應該是有效的。
來源
2016-03-02 19:24:45 TheMadTechnician
我需要更有效的答案。對於2個大的XML文件,在我可以加載第一個XML文件之前,'Get-Content'會給出一個'Out of Memory'錯誤。適用於小文件。 –
我會使用與@TheMadTechnician的答案相同類型的解決方案,但它確實需要一點內存(至少當你有大文件時)。但是有一些方法可以優化它。你說它在內存不足
Get-Content
。Get-Content
使用每行一個字符串創建一個對象數組。既然我們要將它轉換爲xml文檔,我們可以將該文件讀爲一個簡單的字符串,這會爲我們節省大量內存。如果仍有問題,您可能需要在具有更多資源的計算機上運行此腳本。當我們可以將整個文件保存到內存中時,XML解析更容易。
你也可以用你來自哪裏,文件1存儲值的基於哈希表的解決方案和價值,當你閱讀文件2與比較。例如:
輸出:
這僅僅是一個使用正則表達式驗證的概念。使用像這樣的文本解析解決方案(使用前面的哈希表來存儲值),您可以使用
StreamReader
一次讀取一行,以最大限度地減少內存使用量。來源
2016-03-03 16:39:18