我有一些代碼,對使用BS4提取對數據從一個HTML文件:如何從HTML文件中提取特定數據?
from bs4 import BeautifulSoup
readfile = """
<html>
<head>
<meta name="generator"
<title></title>
</head>
<body>
<table align="center" border="1" cellpadding="0" cellspacing="1" width="650">
<tr>
<td>
<font size="1"> Title1</font>
<br /> </td>
<td>
<font size="1"> TItle2 type</font>
<br /> </td>
<td>
<font size="1"> Title3</font>
<br />
<font size="2">value1</font></td>
<td>
<font size="1"> Title4 ID</font>
<br />
<font size="2">value2</font></td>
</tr>
"""
soup = BeautifulSoup(readfile, "html.parser")
tables = soup.findChildren('table')
for title in soup.find_all("font", {"size": "1"}):
value = title.find_next_sibling("font", {"size": "2"})
print (title.text, ":", value.text if value else "No Value")
比方說,我總共有30行。我只需要4個值對,這樣我就可以將它們插入到rdbms中。
我應該嘗試使用大小列表:1值我想要的大小:2值?在BS4上查了一些例子,它並沒有陷入。 謝謝
你想要的輸出是什麼? – alecxe