0
我想寫一個腳本,它將從Python中的簡單html文件中刪除所有圖像,並將文件保存到位。Python條形文件的圖像標籤
這裏是我的嘗試:
from bs4 import BeautifulSoup, NavigableString
def strip_tags(html, invalid_tags):
soup = BeautifulSoup(html)
for tag in soup.findAll(True):
if tag.name in invalid_tags:
s = ""
for c in tag.contents:
if not isinstance(c, NavigableString):
c = strip_tags(unicode(c), invalid_tags)
s += unicode(c)
tag.replaceWith(s)
return soup
data ="C:\\Users\\ADMIN\\Documents\\webpage 1.htm"
with open(data) as orig_f:
html = BeautifulSoup(orig_f.read())
invalid_tags = ['img']
print orig_f
print strip_tags(orig_f, invalid_tags)
有兩件事情,我掙扎,首先所有的代碼運行沒有錯誤,但最後一行,打印,打印什麼,前行打印一個內存地址。我試過尋找我的問題/閱讀文件,以瞭解我在這裏做錯了什麼,但我正在掙扎。
如何讓此代碼從我的HTML文件中刪除所有圖像標記,以及將其保存到位的最佳做法是什麼?