1
我使用python和BeautifulSoup解析許多大型的XML文件。我經常遇到以下任務:Python美麗的湯最有效的方式來查找標籤
<Section1>
<Report>
<Matrix>...</Matrix>
<Matrix>...</Matrix>
<Matrix>...</Matrix>
<Matrix>...</Matrix>
</Report>
</Section1>
我想收集並遍歷所有的矩陣。我使用如下代碼:
res = urlopen(url)
html = res.read()
soup = BeautifulSoup(html, 'xml')
matrices = soup.find("Section1").find_all("Matrix")
#Then I handle each matrix
爲什麼我不能使用這樣的選擇器?
matrices = soup.find("Section1 Matrix")
有沒有更快的方法來做到這一點?有時我正在訪問更多嵌套在XML中的節點,我需要確保它們是後代,但不一定是其他幾個節點的直接子節點。提供的例子是一個簡化。任何幫助將不勝感激。
你嘗試使用LXML? 它會提升很多表現。 – giaosudau