2012-06-20 40 views
0

我使用wget -p $url來獲取網頁上的所有文件,以便我可以得到一個列表。但是對於一些URL,事實證明只有index.html可以被wget獲取。有沒有辦法通過wget或cURL獲取特定URL上的文件列表?我需要檢查請求標頭和響應標頭嗎?如何使用wget或curl在php中獲取網頁上所有路徑/文件的列表?

+1

如果你能舉一些例子,你會得到更好的答案。鏈接看起來像wget沒有遵循的是什麼? –

+0

@Pekka,例如:wget -p amazon.com,我只獲得index.html。 –

+0

「網頁上的文件」究竟是什麼意思? 'wget -p'加載所有先決條件,即。附着的樣式表等。那是你要的嗎? –

回答

2

某些服務器不允許您瀏覽目錄列表,並且如果該目錄中有默認文檔,它將接管並且您無法瀏覽。

你需要實現一個蜘蛛來解析所有的路徑,文件和鏈接,並創建一個在HTML中聲明和使用的文件的目錄結構。 然後你可以下載這些文件。

+0

您可以在頁面上輸入一些網址:http://tools.pingdom.com,文件列表就是我想要的。你知道我怎麼能得到這種類型的所有文件列表? –

相關問題