2012-03-08 101 views
0

我必須寫一個程序來刪除形式的所有表達式<word></word>其中字是任何字母序列(小寫和大寫)和 取出形式的所有表達式<word ..... ></word>其中字是與以前一樣。例如,刪除<a href=」wwang3.htm」 class=」c l」>移除所有<word>標籤

直到現在我的代碼看起來是這樣的:

def remove_1(file_location): 
    """""" 

    import re 
    file_variable = open(file_location) 
    lines = file_variable.read() 

    p = re.findall('<.*?>', lines) 
    print p 

    substitution = re.compile('<.*?>') 
    print substitution.subn(' ', p) 

我得到一個指向它說,我期待一個字符串或運行程序時緩衝print.substitution.subn(' ', p)錯誤。任何幫助是極大的讚賞。

回答

1

您試圖替換到字符串「P」。但是,p是findall的結果,它是一個列表。

我建議做這樣的:

lines = file_variable.read() 
print re.subn('<.*?>', ' ', line) 
0

lines包含字符串,你應該傳遞給subn

print substitution.subn(' ', lines)