我想做一些困難。我想做一個爬蟲,除了從鏈接將下載也網站的源代碼。之後,我想做一個程序如果語句存在(例如,如果有一個標題不包括此網站),它將搜索每個網站的源代碼。網絡爬蟲,它檢索網站源代碼
-3
A
回答
0
2
我曾經爲類似的東西找到過一個PHP腳本,但它當然抓住了客戶端代碼(正如SpyrosP準確地說的那樣)。請參閱http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html
+0
是的,我的意思是html代碼 – akageek 2011-03-19 19:56:11
1
以下是使用HttpWebRequest對象獲取信息的C#示例。
0
你可以通過jsoup
jsoup是一個Java庫與現實世界的HTML工作。
jsoup - official site link
您可以檢索信息,使用標籤解析Html。
0
你用linux comando wget測試過嗎? http://m.linuxjournal.com/content/downloading-entire-web-site-wget
我認爲你也可以測試。
相關問題
- 1. 網絡爬蟲
- 2. C++網絡爬蟲
- 3. PHP網絡爬蟲
- 4. Python網絡爬蟲
- 5. java網絡爬蟲
- 6. 網絡爬蟲類
- 7. asp.net mvc網站搜索使用網絡爬蟲
- 8. Python網絡爬蟲和「獲取」html源代碼
- 9. 蟒蛇爬蟲代碼搜索網絡上的任何文件
- 10. 自動網絡爬蟲
- 11. 網絡爬蟲的功能
- 12. 網絡爬蟲,反饋?
- 13. 網絡爬蟲的Java
- 14. 遞歸網絡爬蟲perl
- 15. 簡單的網絡爬蟲
- 16. Python中的網絡爬蟲
- 17. 需要網絡爬蟲
- 18. 網絡爬蟲文本雲
- 19. 硒與python網絡爬蟲
- 20. 網絡爬蟲從Android Market
- 21. 網絡爬蟲應用
- 22. 網絡爬蟲不打印
- 23. 網絡爬蟲提取
- 24. python網站爬蟲(多個網站)
- 25. 爬蟲/蜘蛛檢測新網站
- 26. 網絡爬蟲在哪裏獲取他們的網站列表進行爬網?
- 27. 讓PHP網絡爬蟲尊重任何網站的robots.txt文件
- 28. 檢索網站的源代碼中InAppBrowser
- 29. 如何禁止下載php代碼的網絡爬蟲?
- 30. 針對windows的增量爬網支持的網絡爬蟲
這是不可能的,除非你的意思是*源HTML * – BrokenGlass 2011-03-19 19:51:15
你的問題不是非常具體,並已在本網站上爲大多數常用語言回答。請記住使用搜索功能,所有的網頁爬蟲在某個時候檢索頁面的「源代碼」(html)。這是唯一需要回收的東西。 – Mat 2011-03-19 19:51:52