我開發的網站,有時客戶已經有網站,但需要他們完全改造,但大多數的內容和圖像需要保持不變。我正在尋找軟件,即使它花錢或是一個桌面應用程序,它可以輕鬆地讓我輸入一個URL並將所有內容都刮到我本地機器上的指定文件夾。任何幫助將非常感激。如何從網站上刮取所有內容?
回答
htttrack將爲你工作得很好。這是一個離線瀏覽器,將拉下網站。您可以根據需要進行配置。這顯然不會拉下PHP,因爲php是服務器端代碼。唯一可以拉下來的是html和javascript以及任何推送到瀏覽器的圖像。
非常感謝,這正是我一直在尋找的。 – cklingdesigns 2011-04-27 15:16:38
沒問題。感謝您的複選標記。 – 2011-04-27 17:12:51
file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com'));
爲慈善事業節省你的錢。
從內容上看,您的意思是整個頁面內容,因此您可以「保存爲......」整個頁面與大多數包含的媒體。
Firefox在工具 - >頁面信息 - >媒體中包含您可以下載的頁面上的所有媒體列表。
你可以做到這一點另存爲瀏覽器的選項去文件 - >保存網頁爲Firefox和所有的圖像和js將被保存在一個文件夾中
不要打擾PHP的像這個。您可以使用wget
輕鬆獲取整個網站。但是,請注意,它不會爲你解析像CSS這樣的東西,因此它不會抓取任何通過(比如說)background-image: URL('/images/pic.jpg')
引用的文件,但會阻止大多數其他所有文件。
幾年前我開始使用HTTrack,我很滿意。這似乎是爲了獲得我自己都看不到的頁面。
這個類可以幫你刮的內容:http://simplehtmldom.sourceforge.net/
推薦的[SimpleHtmlDom](http://simplehtmldom.sourceforge.net/)的第三方替代方案實際上使用[DOM](http://php.net/manual/en/book.dom.php)而不是字符串解析:[phpQuery](http://code.google.com/p/phpquery/),[Zend_Dom](http://framework.zend.com/manual/en/zend.dom.html),[QueryPath]( http://querypath.org/)和[FluentDom](http://www.fluentdom.org)。 – Gordon 2011-04-25 17:10:08
謝謝你的建議,戈登。真的很好。 :d – 2011-04-26 21:31:36
你能湊夠網站與http://scrapy.org,並得到你想要的內容。
Scrapy是一個快速的高級屏幕抓取和網頁爬行框架,用於抓取網站並從其網頁中提取結構化數據。它可用於廣泛的用途,從數據挖掘到監視和自動化測試。
- 1. 如何從無限滾動網站上刮取所有內容? scrapy
- 2. 如何使用AlchemyAPI從網站上刮取內容?
- 3. 網站有R刮,內容
- 4. 如何從網站上刮取圖片?
- 5. 如何從網站上刮取徽標?
- 6. 刮內容從網站頁面
- 7. 如何使用Python從本網站刮取所有數據
- 8. 如何從Google緩存中獲取網站的所有內容?
- 9. 隱藏網站上的所有內容
- 10. 如何從本網站刮取數據?
- 11. 從網頁上颳去內容
- 12. 使用R從aspx網站上刮取
- 13. 從其他網站導入/刮取頁面內容?
- 14. curl - 從網站上颳去大量內容
- 15. 使用Beaufifulsoup和請求從網站上刮掉內容
- 16. SharePoint如何獲取所有子網站,子網站列表和列表內容
- 17. 刮網站內容與安全登錄
- 18. 使用jQuery(跨域)從其他網站獲取所有內容
- 19. 刮網頁內容
- 20. 如何使用JavaScript從網站上刮取圖像?
- 21. 如何填寫html表單並從網站上刮取?
- 22. 如何從許多網站上刮取聯繫人數據?
- 23. 如何從網站上刮取產品數據?
- 24. 如何從網站上刮取全尺寸圖像?
- 25. 如何從JSF網站上抓取Ajax生成的內容?
- 26. 如何抓取我內部網站上的所有頁面?
- 27. 如何從網站獲取所有網站鏈接?
- 28. 如何屏蔽刮取網站並獲取div內的數據?
- 29. 是在動所有的網站內容
- 30. 「所有網站內容」權限頁面
文件>另存爲...> [網站,完整] - 它不會讓你每一頁,但它會讓你在當前頁面上的所有資產。 – coreyward 2011-04-25 15:00:27
[解析HTML的最佳方法]的可能的重複(http://stackoverflow.com/questions/3577641/best-methods-to-parse-html) – Gordon 2011-04-25 17:09:33
如果[Save Full Webpage](http:// stackoverflow。 com/questions/1722433/save-full-webpage) – Gordon 2011-04-25 17:10:52