2010-08-04 42 views
0

我想列出一個外部網頁的ulr的內容。現在我想列出此網站的內容example.com/dir/dir/images/列表網址目錄內容

目前我可以從一個頁面下載圖像:

urllib.urlretrieve(page_url,save_url) 

但我想列出爲此事

目錄中的所有圖像,或任何厄爾

我想使用Python

回答

2

不幸的是,這隻能工作,如果當你導航到該目錄的URI有問題的Web服務器將竭誠爲您服務目錄列表。

如果是這樣,典型的目錄列表有非常簡單的標記,使他們成爲各種形式的網頁抓取的主要候選人。否則,你運氣不好。

+0

所以如果Web服務器確實允許這樣做,我該怎麼做? – Harry 2010-08-04 13:35:45

+0

這在很大程度上取決於目錄列表的結構和格式,但對於典型的apache目錄列表,找到頁面上的每個鏈接將是一個好的開始。有一個谷歌周圍的網頁刮和正則表達式。 – Nick 2010-08-04 13:52:17