2016-11-28 39 views
0

我希望能夠抓住「鏈接到谷歌」,並從該打印:定位和打印HTML超鏈接名稱

<a href= "http://www.google.com">link to google</a> 

這種自下而上代碼能夠抓住的聯繫,但我不知道如何讓它抓住正常的文字。

def handle_starttag(self, tag, attrs): 

      if tag == 'a': 
       self.anchor = True 
       if self.anchor == True: 
        for attr in attrs: 
         if attr[0] == 'href': 
           print(attr[1]) 

回答

0

handle_data使用它:

def handle_starttag(self, tag, attrs): 
    if tag == 'a': 
     self.anchor = True 

def handle_data(self, data): 
    if self.anchor: 
     print('anchor data is:', data) 
    self.anchor = False 

這將進入一個a標籤並設置self.anchor真,則在(標籤內)數據跌跌如果最後一個標籤是a將打印數據。無論如何,在那輪之後,self.anchor將再次爲假,防止多次錯誤檢測。