我在這裏經歷了大量的線程,看看我能否找到一種方法來修復此代碼,但似乎無法讓這個工作。我試圖從網站上獲取鏈接,然後寫入csv。下面的代碼:BeautifulSoup Absoute URLs Print to CSV
我找到一種方式來獲得的方式出現95%,但我缺少的東西想起來在href:
from bs4 import BeautifulSoup
import urllib.request
import urllib.parse
import csv
j = urllib.request.urlopen("http://cnn.com")
soup = BeautifulSoup(j, "lxml")
data = soup.find_all('a', href=True)
for url in soup.find_all('a', href=True):
#print(url.get('href'))
with open('marcel.csv', 'w', newline='') as csvfile:
write = csv.writer(csvfile)
write.writerows(data)
解決了它!謝謝:)只是爲了理解目的,添加data = []意味着? – Jarman
這僅僅意味着「在這種情況下創建一個空列表數據」。通過這種方式,我們可以使用.append方法將其填充到循環中(如果列表尚不存在,此方法不起作用) –
有沒有辦法在輸出中獲取唯一值?我希望得到的是絕對鏈接的列表,例如http://cnn.com/(這裏是刮網)。但是沒有重複值的列表。 – Jarman