我已安裝bs4
。你如何從文本文件中刪除HTML標籤?簡而言之,我有一個腳本,將ESRI元數據項目寫入該元數據HTML頁面的文本文件中,對於這些項目中的一些項目,HTML格式代碼也是由於某種原因編寫的。我如何使用BeautifulSoup刪除這段代碼?它看起來馬虎。從文本文件中刪除BeautifulSoup標籤
此附件的說明項具有HTML:Textfile
我已安裝bs4
。你如何從文本文件中刪除HTML標籤?簡而言之,我有一個腳本,將ESRI元數據項目寫入該元數據HTML頁面的文本文件中,對於這些項目中的一些項目,HTML格式代碼也是由於某種原因編寫的。我如何使用BeautifulSoup刪除這段代碼?它看起來馬虎。從文本文件中刪除BeautifulSoup標籤
此附件的說明項具有HTML:Textfile
使用w3lib
library對於這一點,沒有必要的bs4
:
from w3lib.html import remove_tags
text = "your text"
new_text = remove_tags(text)
@eLRuLL謝謝,這偉大工程,以去除標籤。然而,我將使用這個腳本的這些元數據描述中的一些非常冗長,並且將該文本作爲變量輸入似乎是一個不好的主意。出於這個原因,我試過這個:
import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
abstract = metadata.abstract
if abstract:
w3lib.html.remove_tags(abstract)
腳本運行但HTML仍然存在。
當然,解決你的問題,很高興我幫助。 – eLRuLL
預期輸出是什麼,到目前爲止您嘗試過了什麼? – johnII
嘗試'soup.text' –
你想提取沒有html標籤的數據嗎? –