2013-03-04 143 views
1

假設我有一個網址http://example.com/result,這將打開一個頁面,有一些(目錄的數量可以是一個,兩個,三個......任意數量的目錄)的目錄。我想遍歷每個目錄,並找出new.txt文件,它可以是一個目錄或子DIR ....內部的任何地方通過http遍歷目錄

http://example.com/result有以下目錄:

security 
major 
minor 
fails 
logs 
.. 

我需要找到每個目錄中的new.txt並且想要讀取內容。 所有的目錄(安全/主要/ ...等)也可能有子目錄。 我需要在目錄或子目錄中找到new.txt。

+2

你看'wget's遞歸的選項? – Fabian 2013-03-04 09:09:45

回答

0

如果你想使用Python這樣做,那麼你必須使用urllib

檢查每個頁面的標題。對於目錄和文件,會有鏈接標記。轉到該鏈接標記並檢查標題。文件和目錄的標題可能會有所不同。

如果它的目錄,然後遞歸調用同一個函數,並檢查該目錄中的每個文件。

+1

但我怎麼能知道是否一個文件或目錄...因爲os.path.isfile(「FILE_NAME」)將無法正常工作(http://example.com/result)。你能否用代碼解釋...? – 2013-03-05 06:35:48

+0

請檢查標題。我寫了一個腳本,用於檢查「ETag」標題。這個頭文件與目錄和文件不在那裏。所以我檢查該標題密鑰,如果存在,則表示其目錄。可能是你的服務器給目錄一些其他的頭。請檢查從服務器返回的標題。 – Nilesh 2013-03-05 06:43:15