我試圖從html文件中抓取一些文本,但是我需要兩種類型的文本,它們的標籤中的術語(contextref
)互不相同,例如:BeautifulSoup通過html標籤中的2個詞條找到文本 - Python 3
1)<ix:nonfraction contextref="cfwd_30_04_2016" name="ns5:TangibleFixedAssets" unitref="GBP" decimals="0" format="ixt2:numdotdecimal" scale="0" xmlns:ix="http://www.xbrl.org/2008/inlineXBRL">180,649</ix:nonfraction>
2)<ix:nonfraction contextref="cfwd_30_04_2015" name="ns5:TangibleFixedAssets" unitref="GBP" decimals="0" format="ixt2:numdotdecimal" scale="0" xmlns:ix="http://www.xbrl.org/2008/inlineXBRL">200,395</ix:nonfraction>
此刻我的代碼查找的文字是:var1=(soup.find('ix:nonfraction',{'name':'uk-gaap:{}'.format(variable)}).text)
這對於上面給出的示例:180649。
對於我能夠得到兩個值,我需要另一個變量,以包括另一個術語以及name
,(作爲contextref
)我玩過不同的組合,但似乎無法使它工作。
任何幫助將是巨大的,感謝
是這個xml代碼?併發布你想要的輸出。 –
nope,文件都是'.html' 理想的輸出是'var1'將第一個標記= 180,649和'var2'的文本文件包含在第二個= 200,395中。 可能值得注意的是,這兩個標籤不在同一個頭標記 – reuben