2011-08-25 32 views
-1

我們可以使用os.walk()輕鬆找到本地光盤上的子目錄,但如果這些目錄不在本地並位於Web服務器上?在Web服務器上查找子目錄

例如,我有一個網站叫做http://www.geoglobaldomination.org。有幾個子目錄不在主頁上引用。例如。 http://www.geoglobaldomination.org/kmlhttp://www.geoglobaldomination.org/kml/temp

如何在不使用HTML標記作爲參考點的情況下使用簡單的python爬蟲找到這些子目錄?

+0

我認爲,即使使用不可能的HTML標籤 –

回答

2

任何想要訪問遠程服務器的東西都需要以某種方式公開。沒有自動發現機制 - 這就是爲什麼搜索引擎需要網站的網站地圖。在這種情況下,最佳做法是製作一個站點地圖,並讓您的抓取工具在那裏啓動。

+0

我相信這是真的! – aeupinhere

2

那麼,從最普遍的意義上說,你不能。

有一些網站可能會給你一個索引的子目錄,當你結束你的uri時使用「/」或「index.html」,但他們不需要。網站作者基本上可以在訪問他們的網站時(使用瀏覽器或程序)返回他們想要的任何內容。他們可能會返回NOT FOUND(即使您請求的文檔存在於您請求的確切位置)。

它完全依賴於實現。

相關問題