我必須寫一個程序來刪除形式的所有表達式<word>
和</word>
其中字是任何字母序列(小寫和大寫)和 取出形式的所有表達式<word ..... >
和</word>
其中字是與以前一樣。例如,刪除<a href=」wwang3.htm」 class=」c l」>
移除所有<word>標籤
直到現在我的代碼看起來是這樣的:
def remove_1(file_location):
""""""
import re
file_variable = open(file_location)
lines = file_variable.read()
p = re.findall('<.*?>', lines)
print p
substitution = re.compile('<.*?>')
print substitution.subn(' ', p)
我得到一個指向它說,我期待一個字符串或運行程序時緩衝print.substitution.subn(' ', p)
錯誤。任何幫助是極大的讚賞。