是否有任何方式使用python獲取網站中的所有鏈接,而不僅僅是在網頁中?我想這個代碼,但是這是給我只能在網頁鏈接使用python獲取avalibale在網站中的所有鏈接?
import urllib2
import re
#connect to a URL
website = urllib2.urlopen('http://www.example.com/')
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)
print links
你是什麼意思與「中的所有鏈接網站不僅在網頁上「?你的意思是存儲在www.example.com上的任何html頁面中包含的每一個鏈接? – syntonym
是的,這就是我的意思 –
你不能那樣做。你甚至可能無法訪問所有的html頁面。但是,您可以遞歸訪問您收集的鏈接(如果他們也指向www.exmaple.com或者它們是相對鏈接)並從那裏獲取所有鏈接。然而,這可能不是「全部鏈接」,例如如果頁面example.com/jfifjfi中沒有鏈接指向您將無法訪問該頁面。 – syntonym