所以,我有一個html文件,看起來像這樣得到最後一個項目:的Python(湯):獲取嵌套的數據,並在標籤
<title>Speaker Name: Title of Talk | Subtitle | website.com</title>
... [Other Stuff]
<div class='meta'><span class='meta__item'>
Posted
<span class='meta__val'>
Jun 2006
</span></span><span class='meta__row'>
Rated
<span class='meta__val'>
Funny, Informative
</span></span></div>
<div class='talk-article__body talk-transcript__body'> TEXT
<data class='talk-transcript__para__time'>15:57</data>
我有2200個文件這個樣子,和我希望把將它們全部轉換爲具有AUTHOR,TITLE,DATE,LENGTH和TEXT列的CSV文件。現在,我有什麼是不是最漂亮的代碼,但它的工作原理:
from bs4 import BeautifulSoup as soup
soup = soup(open(file).read(), "lxml")
at = soup.find("title").text
author = at[0:at.find(':')]
title = at[at.find(":")+1 : at.find("|") ]
text = soup.find("div", attrs={ "class" : "talk-article__body"}) # still needs cleaning
date =
length =
我不能爲我的生活弄清楚如何在日期得到:我懷疑它是soup
和re
組合,但我承認,我無法將自己的頭圍繞在組合上。
長度的訣竅是,我想找到的是上次時間<data class='talk-transcript__para__time'>
發生在文件中並抓住THAT值。
這是優秀!謝謝! –
@JohnLaudun歡迎你 – rock321987