移除所有<word>標籤

我必須寫一個程序來刪除形式的所有表達式<word>和</word>其中字是任何字母序列（小寫和大寫）和取出形式的所有表達式<word ..... >和</word>其中字是與以前一樣。例如，刪除<a href=」wwang3.htm」 class=」c l」>移除所有<word>標籤

直到現在我的代碼看起來是這樣的：

def remove_1(file_location): 
    """""" 

    import re 
    file_variable = open(file_location) 
    lines = file_variable.read() 

    p = re.findall('<.*?>', lines) 
    print p 

    substitution = re.compile('<.*?>') 
    print substitution.subn(' ', p)

我得到一個指向它說，我期待一個字符串或運行程序時緩衝print.substitution.subn(' ', p)錯誤。任何幫助是極大的讚賞。

來源

2012-03-08 italianfoot

您試圖替換到字符串「P」。但是，p是findall的結果，它是一個列表。

我建議做這樣的：

lines = file_variable.read() 
print re.subn('<.*?>', ' ', line)

來源

2012-03-08 18:59:59 aquavitae

lines包含字符串，你應該傳遞給subn

print substitution.subn(' ', lines)

來源

2012-03-08 18:51:56 vikki

移除所有<word>標籤

回答

相關問題