2011-11-26 63 views
1

我需要使用lxml.html找到標籤的位置或全文。 例如:Python找到HTML標籤位置

[some html code] </body > [some html code] 

我需要返回:</body > OR這段文字的位置。

我該怎麼做?下面的代碼不起作用。

page = fromstring(html) 
for s in page.findall('.//body'): 
    print s.tag, s.text, s.attrib 
+0

目前還不清楚是什麼 「位置或標記的全文」 的意思。 ''是'body'元素的結束標記。什麼是位置?你的意思是行號? – mzjn

回答

0

我已經定義了一個Python函數下面將給出的文件中對於給定的搜索字符串並在串中發現打印行號和行內容。

def find_position(word, file): 
    line_number = 0 
    for line in open(file): 
     line_number += 1 
     if word in line: 
      print "%d - %s" % (line_number, line) 

這裏單詞需要單詞作爲字符串進行搜索,文件將文件的路徑作爲字符串進行搜索。我已經給出了下面的例子。

find_position("body", "/home/user/page1.html") 

輸出

24 - <body> 
28 - </body>