我想創建一個程序來從網頁中拉出所有鏈接並將它們放入列表中。從python網站拉鍊接
import urllib.request as ur
#user defined functions
def findLinks(website):
links = []
line = website.readline()
while 'href=' not in line:
line = website.readline()
p
while '</a>' not in line :
links.append(line)
line = website.readline()
#connect to a URL
website = ur.urlopen("https://www.cs.ualberta.ca/")
findLinks(website)
當我運行這個程序時,它延遲並返回一個TypeError:字符串不支持緩衝區干擾。
任何人有任何指針?
哪個版本的python? – Logan
有很多工具可以使這更容易,你假設在html中有換行符,或者鏈接沒有換行符。你應該谷歌,找到鏈接Python - 這應該帶你回到這裏一些有用的問答。 – PyNEwbie
可能重複的[如何從html代碼獲取href鏈接](http://stackoverflow.com/questions/3075550/how-can-i-get-href-links-from-html-code) – PyNEwbie