我在抓取點擊列表時遇到問題。 每年在某個網頁上都有一個具有特定網址的匹配列表。該網址包含年份,所以我想用命中列表爲每年製作一個csv文件。以已知網址格式自動抓取多個網頁
可惜我不能讓它順序,我得到以下錯誤:
ValueError: unknown url type: 'h'
這裏是我嘗試使用的代碼。我很抱歉,如果有簡單的錯誤,但我是pyhon的新手,我無法找到任何順序在論壇適應這種情況。
import urllib
import urllib.request
from bs4 import BeautifulSoup
from urllib.request import urlopen as uReq
years = list(range(1947,2016))
for year in years:
my_urls = ('http://www.hitparadeitalia.it/hp_yends/hpe' + str(year) + '.htm')
my_url = my_urls[0]
for my_url in my_urls:
uClient = uReq(my_url)
html_input = uClient.read()
uClient.close()
page_soup = BeautifulSoup(html_input, "html.parser")
container = page_soup.findAll("li")
filename = "singoli" + str(year) + ".csv"
f = open(singoli + str(year), "w")
headers = "lista"
f.write(headers)
lista = container.text
print("lista: " + lista)
f.write(lista + "\n")
f.close()
對不起。我只是注意到我粘貼了一箇舊版本的代碼,在那裏有一個簡單的錯誤,而不是lista = container [0] .text我寫了lista = container.text –
您可以使用['edit'](https:// stackoverflow.com/posts/46100207/edit)按鈕來更改你的問題。 –
謝謝。我無法在問題中找到它,但只能在評論中找到它。 –