從文本文件中刪除BeautifulSoup標籤

我已安裝bs4。你如何從文本文件中刪除HTML標籤？簡而言之，我有一個腳本，將ESRI元數據項目寫入該元數據HTML頁面的文本文件中，對於這些項目中的一些項目，HTML格式代碼也是由於某種原因編寫的。我如何使用BeautifulSoup刪除這段代碼？它看起來馬虎。從文本文件中刪除BeautifulSoup標籤

此附件的說明項具有HTML：Textfile

來源

2017-12-27 Pfalbaum

預期輸出是什麼，到目前爲止您嘗試過了什麼？ – johnII

嘗試'soup.text' –

你想提取沒有html標籤的數據嗎？ –

使用w3lib library對於這一點，沒有必要的bs4：

from w3lib.html import remove_tags 

text = "your text" 
new_text = remove_tags(text)

來源

2017-12-27 18:18:18 eLRuLL

@eLRuLL謝謝，這偉大工程，以去除標籤。然而，我將使用這個腳本的這些元數據描述中的一些非常冗長，並且將該文本作爲變量輸入似乎是一個不好的主意。出於這個原因，我試過這個：

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract)

腳本運行但HTML仍然存在。

來源

2017-12-27 20:25:39 Pfalbaum

當然，解決你的問題，很高興我幫助。 – eLRuLL

從文本文件中刪除BeautifulSoup標籤

回答

相關問題