2017-12-27 273 views
0

我已安裝bs4。你如何從文本文件中刪除HTML標籤?簡而言之,我有一個腳本,將ESRI元數據項目寫入該元數據HTML頁面的文本文件中,對於這些項目中的一些項目,HTML格式代碼也是由於某種原因編寫的。我如何使用BeautifulSoup刪除這段代碼?它看起來馬虎。從文本文件中刪除BeautifulSoup標籤

此附件的說明項具有HTML:Textfile

+0

預期輸出是什麼,到目前爲止您嘗試過了什麼? – johnII

+1

嘗試'soup.text' –

+0

你想提取沒有html標籤的數據嗎? –

回答

2

使用w3lib library對於這一點,沒有必要的bs4

from w3lib.html import remove_tags 

text = "your text" 
new_text = remove_tags(text) 
0

@eLRuLL謝謝,這偉大工程,以去除標籤。然而,我將使用這個腳本的這些元數據描述中的一些非常冗長,並且將該文本作爲變量輸入似乎是一個不好的主意。出於這個原因,我試過這個:

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract) 

腳本運行但HTML仍然存在。

+0

當然,解決你的問題,很高興我幫助。 – eLRuLL