1
結果
我試圖從網站[https://data.gov.au/dataset?q=&groups=business&sort=extras_harvest_portal%20asc%2C%20score%20desc%2C%20metadata_modified%20desc&_organization_limit=0&organization=reservebankofaustralia&_groups_limit=0]用美麗的湯和寫在CSV
選擇文本中提取選擇文本並使用美麗的湯已經寫代碼: `
wiki = "https://data.gov.au/dataset?q=&groups=business&sort=extras_harvest_portal+asc%2C+score+desc%2C+metadata_modified+desc&_organization_limit=0&organization=reservebankofaustralia&_groups_limit=0"
page= urllib.request.urlopen(wiki)
from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(page)
data2 = soup.find_all('h3', class_="dataset-heading")
data3 = []
getdata = []
for link in data2:
data3 = soup.find_all("a", href=re.compile('/dataset/', re.IGNORECASE))
for data in data3:
getdata = data.text
print(getdata)
len(getdata)
`
我的HTML是像:
<a href = "/dataset/banks-assets, class = "label" data-format = "xls">XLS<\a>
當我在代碼上面運行時,我得到的文本是我想要的,但'XLS'單詞即將到來,我想刪除'XLS'並希望在一列中解析csv中剩餘的文本。我的輸出是:
- 銀行 - 資產
- XLS
- 合併曝光 - 直接及最終 風險基礎
- XLS
- 外匯交易等 官方儲備增持資產
- XLS
- 財務公司和通用金融家 - 選定的資產和負債
- XLS
- 負債和資產 - 每月XLS合併曝光 - 直接風險基礎 - 國際索賠由國家
- XLS 依此類推......
我檢查了上面的輸出是否列表。它被給出了列表,但它只有一個元素,但正如我上面顯示的,我的輸出是很多文本。 請幫我解決它。
@Arti,任何反饋?註釋?是不是對您有幫助? –
@德米特里,這是有益的,因爲我學到新東西,但我事先轉換成字典的東西,你可以看到我的答案上面。但我也堅持把東西放入csv。請檢查並幫助擺脫它.- Arti123 – Arti123
@Arti,將數據放入csv的最簡單方法是使用我添加到解決方案底部行的方法=) 稍後我會在有空時檢查您的代碼。 Aslo如果我的回答適合你,你可以通過把綠色複選標記接受它嗎? –