所以我試圖用BeautifulSoup 4.0從Michigan Department of Health and Human Services website的表上刮取數據,我不知道如何正確格式化。使用Python 2.7提取並打印表格頭和數據用美麗的湯2.7
我有下面的代碼來獲取和從網站的信息,但我很茫然,因爲如何格式化它,使其具有與網站上的表格相同的外觀時,我打印或保存它作爲.txt/.csv文件。我在這裏和其他一些網站上尋找答案,但我不知道如何繼續這個。我非常初學者,所以任何幫助將不勝感激。
我的代碼只是打印無論是錶行或表數據的一個長長的清單:
import urllib2
import bs4
from bs4 import BeautifulSoup
url = "https://www.mdch.state.mi.us/osr/natality/BirthsTrends.asp"
page = urllib2.urlopen(url)
soup = BeautifulSoup((page), "html.parser")
table = soup.find("table")
rows = table.find_all("tr")
for tr in rows:
tds = tr.find_all('td')
print tds
,我正在看的HTML低於還有:
<table border=0 cellpadding=3 cellspacing=0 width=640 align="center">
<thead style="display: table-header-group;">
<tr height=18 align="center">
<th height=35 align="left" colspan="2">County</th>
<th height="35" align="right">
2005
</th>
那部分節目年份作爲標題,直到2015年,然後州和縣的數據進一步下降:
<tr height="40" >
<th class="LeftAligned" colspan="2">Michigan</th>
<td>
127,518
</td>
和其他縣也是如此。 再次,任何幫助非常感謝。
所有你需要做的是製作一個多維數組(行 - >列),你沒問題。 –
請原諒我在這裏的無知,但我會如何去做,只要代碼去? – meddhead