0
我想列出一個外部網頁的ulr的內容。現在我想列出此網站的內容example.com/dir/dir/images/
列表網址目錄內容
目前我可以從一個頁面下載圖像:
urllib.urlretrieve(page_url,save_url)
但我想列出爲此事
目錄中的所有圖像,或任何厄爾我想使用Python
我想列出一個外部網頁的ulr的內容。現在我想列出此網站的內容example.com/dir/dir/images/
列表網址目錄內容
目前我可以從一個頁面下載圖像:
urllib.urlretrieve(page_url,save_url)
但我想列出爲此事
目錄中的所有圖像,或任何厄爾我想使用Python
不幸的是,這隻能工作,如果當你導航到該目錄的URI有問題的Web服務器將竭誠爲您服務目錄列表。
如果是這樣,典型的目錄列表有非常簡單的標記,使他們成爲各種形式的網頁抓取的主要候選人。否則,你運氣不好。
所以如果Web服務器確實允許這樣做,我該怎麼做? – Harry 2010-08-04 13:35:45
這在很大程度上取決於目錄列表的結構和格式,但對於典型的apache目錄列表,找到頁面上的每個鏈接將是一個好的開始。有一個谷歌周圍的網頁刮和正則表達式。 – Nick 2010-08-04 13:52:17