-1
我試圖在網站上刮掉特定表格的特定部分。Python:爲特定內容刮表
URL = https://h10145.www1.hpe.com/downloads/SoftwareReleases.aspx?ProductNumber=J9775A
在網站上,還有就是我想從,這我能做到,但是,我得到了很多的表我不需要的其他物品的刮的HTML表格。如果您查看URL,表格由多個下拉列表組成,我只需要「當前版本」列表。
檢查元素給了我這個與Screenshot
工作,正如你所看到的,也有一些與類型「Current_Releases」表中的行,但我無法弄清楚如何拉-just-那些。
我使用Python 3.2和BeautifulSoup,以及課程
這裏的請求和CSV是我的代碼:
url = "https://h10145.www1.hpe.com/downloads/SoftwareReleases.aspx?ProductNumber=J9775A"
r = requests.get(url)
soup = BeautifulSoup(r.content)
table = soup.find('table', attrs={"class": "hpui-standardHrGrid-table"})
headers = [header.text for header in table.find_all('th')]
rows = []
for row in table.find_all('tr'):
rows.append([val.text.encode('utf8') for val in row.find_all('td')])
with open('c:\source\output_file.csv', 'w') as f:
writer = csv.writer(f)
writer.writerow(headers)
writer.writerows(row for row in rows if row)
感謝您的任何建議和幫助,因爲我是新手,當它涉及到Python
file這並沒有爲我工作:( –
@KevinJohnson更新我的回答與預期輸出和完整代碼。 –
非常感謝。<3非常感謝。看起來你包含了一個xml解析器並且改變了一些東西。這正是我需要的。 –