使用Beautiful soup
和Pandas
刮網以獲取表格。其中一列有一些網址。當我將html傳遞給熊貓時,href
丟失。如何保存與美麗的湯和熊貓刮桌子時的鏈接
是否有任何方法保留url鏈接只爲該列?
實施例的數據(編輯的更好地適合RAL情況下):
<html>
<body>
<table>
<tr>
<td>customer</td>
<td>country</td>
<td>area</td>
<td>website link</td>
</tr>
<tr>
<td>IBM</td>
<td>USA</td>
<td>EMEA</td>
<td><a href="http://www.ibm.com">IBM site</a></td>
</tr>
<tr>
<td>CISCO</td>
<td>USA</td>
<td>EMEA</td>
<td><a href="http://www.cisco.com">cisco site</a></td>
</tr>
<tr>
<td>unknown company</td>
<td>USA</td>
<td>EMEA</td>
<td></td>
</tr>
</table>
</body>
</html>
我的Python代碼:
file = open(url,"r")
soup = BeautifulSoup(file, 'lxml')
parsed_table = soup.find_all('table')[1]
df = pd.read_html(str(parsed_table),encoding='utf-8')[0]
df
輸出(出口到CSV):
customer;country;area;website
IBM;USA;EMEA;IBM site
CISCO;USA;EMEA;cisco site
unknown company;USA;EMEA;
DF輸出是好的,但鏈接丟失。我需要保留鏈接。至少是URL。
任何提示?
你能幫我一個問題我有美女? – Nobi
@Nobi:我可能不知道答案,但是如果你發佈一個問題,我會看看。 – unutbu
好的,謝謝我會馬上去做 – Nobi