我正在python 2.7上創建我自己的網絡爬蟲,它將網站下載到我的計算機的路徑中,並以類似的方式將文件保存在現場例如在服務器上:如何更改HTML文件的鏈接到本地鏈接
https://stackoverflow.com/questions/ask?title=python+how+to+change+links+of+html+file+to+local+links
我將計算器的目錄裏面的問題,並在裏面這個網頁的HTML文件的目錄...
我怎樣才能改變鏈接到互聯網頁面鏈接到我下載的頁面,如果它們已經存在於我的電腦上?
例如,如果有: <a href="https://stackoverflow.com/questions">
所以我將通過蟒蛇改變這個網站碼到 <a href="/questions">
或這樣的事情..
我不知道是否有幫助,但是這是我使用的功能 高清downloadFile(路徑,URL):在一個單一的文件下載
try :
print "Downloading : " + url
path=path + urlparse(url).path
path , fileName = pathNameSplit(path)
make_sure_path_exists(path)
print "trying to downoad " + fileName
if (fileName.count(".") == 0):fileName = fileName + ".html"
#pickle.dump(url2Html(url) , open(path + fileName, "w"))
urllib.urlretrieve(url, path + fileName)
print "Download of " + url + " Completed"
except Exception:
print "Sometihng occured in the download of " + url
如果我是你,我禾uld使用[請求](http://docs.python-requests.org/en/latest/)而不是urllib –