如何從另一個網站'抓取'內容

他問：我做這個網站，您可以存檔您的網站...

它的工作原理是這樣，你進入你的網站，如，something.com然後我們的網站抓取該網站像內容圖像和所有這些，並將其上傳到我們的網站。然後，即使持有something.com的服務器關閉，人們也可以在oursite.com/something.com上查看該網站的完整副本。

他怎麼能這樣做？（PHP？）和什麼會有一些要求？

來源

2010-08-01 omnix

「您可以將您的網站存檔的網站」http://web.archive.org – BoltClock 2010-08-01 13:10:55

如果您熟悉php，則可以使用名爲WebCrawler和CssDom的Symfony2組件。 Symfony的創建者已經彙集瞭如何使用組件進行網頁抓取的演示。 https://github.com/fabpot/Goutte – xzyfer 2011-02-08 12:41:17

這聽起來像你需要創建一個webcrawler。儘管我會推薦使用C++（使用cURL），Java（使用URLConnection）或Python（w/urrlib2）來爲Web爬蟲編寫任何語言。你可能也可以用curl或wget命令和BASH快速破解一些東西，儘管這可能不是最好的長期解決方案。此外，不要忘記，如果您抓取某人的網站時應該下載，解析並尊重「robots.txt」文件。

來源

2010-08-01 13:13:52