1
背景:如何通過模板解析XML?
我有很大的XML文件(5-20 GB)組成的頭記錄,然後一系列具有相同標記的記錄(但不同的內容):
<header>
(...)
</header>
<host>
<tagA>hello</tagA>
<tagB name="world"></tagB>
<tagC>bonjour</tagC>
</host>
<host>
(...)
</host>
(...)
- 當存在
<host>
中的標籤時,它總是具有相同的結構。 - 我只在某些標籤內容(例如,從
<tagA>
hello
)和一些標籤的參數(例如,從該參數的<tagB>
name
world
)感興趣。我放棄其他標籤和內容。
今天我如何處理文件:
我讀輸入文件,一個提取一個<host>
和</host>
之間的部分(包括這些邊界標記),並與BeautifulSoup分析它們。這工作正常,我得到我需要的元素。
我想這樣做:
我不過喜歡使用分析<host>
條目(某種模式)和狀態哪些元素是我感興趣的描述。
我發現了逆演習的許多例子(如何基於模板創建XML文件),但沒有發現基於模式的分析。這樣的方法可用嗎?
不會添加[mcve]幫助嗎? – boardrider
@boardrider:不確定你錯過了什麼?你可以找到我分析過的數據的樣本,我不是在尋找一些解決方案來解決某些無法使用的代碼,而是通過一個模板/方案來區別不同的問題。 – WoJ