我正在嘗試在python中編寫一個程序,該程序從網頁中讀取所有數據,並將任何標題標記<h1>
到<h6>
的內容附加到列表中。到目前爲止,我只是想首先獲取網站信息,事實證明這很困難。從URL中提取HTML信息
編輯:這是一個班。令人遺憾的是,我們不允許使用未預先安裝python的庫。
編輯2:感謝您的所有提示。該程序現在成功讀取給定網站的HTML。有沒有人有任何建議,搜索網頁內的特定字符串(即<H>
標籤)?
import urllib
from urllib.request import urlopen
#example URL that includes an <h> tag: http://www.hobo-web.co.uk/headers/
userAddress = input("Enter a website URL: ")
webPage = urllib.request.urlopen(userAddress)
print (webPage.read())
webPage.close()
http://docs.python-requests.org/en/latest/和http://www.crummy.com/software/BeautifulSoup/ BS4/DOC / – pvg