我需要一些幫助來查找XML文檔中某些標籤的文本偏移量。我有一個數據集,其格式如下,其中ROOT元素包含多個RECORD,但每個RECORD只包含一個TEXT元素。在文本中可能存在幾個TAG元素用作某些文本的註釋。我需要將這些註釋轉換爲另一種需要使用Python標記的開始和結束偏移的格式。如何使用Python提取xml文檔中的標籤偏移量BeautifulSoup
<ROOT>
<RECORD ID="123">
<TEXT>
This is an example text written at <TAG TYPE="DATE">December 29th</TAG> to illustrate the problem.
</TEXT>
</RECORD>
</ROOT>
基本上,我想上面的格式轉換爲以下格式:
<ROOT>
<RECORD ID="123">
<TEXT>
This is an example text written at December 29th to illustrate the problem.
</TEXT>
<TAG TYPE="DATE" BEGIN=36 END=49/>
</RECORD>
</ROOT>
我一直在使用BeautifulSoup嘗試,但找不到提取標籤偏移的方式。想法任何人?
感謝您的幫助!
/雅
爲什麼這會降低投票率?編輯 – ShreevatsaR