有朋友問我這個,我無法回答。如何從另一個網站'抓取'內容
他問:我做這個網站,您可以存檔您的網站...
它的工作原理是這樣,你進入你的網站,如,something.com然後我們的網站抓取該網站像內容圖像和所有這些,並將其上傳到我們的網站。然後,即使持有something.com的服務器關閉,人們也可以在oursite.com/something.com上查看該網站的完整副本。
他怎麼能這樣做? (PHP?)和什麼會有一些要求?
有朋友問我這個,我無法回答。如何從另一個網站'抓取'內容
他問:我做這個網站,您可以存檔您的網站...
它的工作原理是這樣,你進入你的網站,如,something.com然後我們的網站抓取該網站像內容圖像和所有這些,並將其上傳到我們的網站。然後,即使持有something.com的服務器關閉,人們也可以在oursite.com/something.com上查看該網站的完整副本。
他怎麼能這樣做? (PHP?)和什麼會有一些要求?
這聽起來像你需要創建一個webcrawler。儘管我會推薦使用C++(使用cURL),Java(使用URLConnection)或Python(w/urrlib2)來爲Web爬蟲編寫任何語言。你可能也可以用curl或wget命令和BASH快速破解一些東西,儘管這可能不是最好的長期解決方案。此外,不要忘記,如果您抓取某人的網站時應該下載,解析並尊重「robots.txt」文件。
使用wget。無論是linux版本還是gnuwin32軟件包的windows版本。 get it here。
「您可以將您的網站存檔的網站」http://web.archive.org – BoltClock 2010-08-01 13:10:55
如果您熟悉php,則可以使用名爲WebCrawler和CssDom的Symfony2組件。 Symfony的創建者已經彙集瞭如何使用組件進行網頁抓取的演示。 https://github.com/fabpot/Goutte – xzyfer 2011-02-08 12:41:17