2009-12-20 140 views
1

快速的問題......我可以然而創建/使用libxml2dom解析HTML的一大塊,等...蟒蛇libxml2dom XPath的問題

,有沒有辦法以某種方式顯示用於生成的XPath /解壓縮HTML塊..我假設有這樣做,我不能找到一些方法/方式..

例如:

import libxml2dom 
d = libxml2dom.parseString(s, html=1) 

## 

hdr="//div[3]/table[1]/tr/th" 

thdr_ = d.xpath(hdr) 
print "lent = ",len(thdr_) 

在這一點上,thdr_是對象的數組/列表。 。其中每一個指向一大塊HTML(如果你願意的話)

我試圖找出是否有一種方式來獲得,也就是說,XPath來說,名單的thdr_ [X]元/項...

即:

thdr_[0]=//div[3]/table[1]/tr[0]/th 
thdr_[1]=//div[3]/table[1]/tr[1]/th 
thdr_[2]=//div[3]/table[1]/tr[2]/th 
. 
. 
. 

任何想法/意見..

感謝

-Tom

+0

請參閱[簽名常見問題](http://stackoverflow.com/faq#signatures)。你真的應該閱讀常見問題的其他部分,以瞭解如何發佈質量問題;無論如何,這會讓你獲得[徽章](http://stackoverflow.com/badges/1306/analytical)。 – 2011-12-19 20:45:51

回答

0

我是通過遍歷每個節點和的textContent與我預期的文本比較,這樣做。對於模糊比較,我使用了difflib的SequenceMatcher類。