我想寫一個功能,需要一個網頁的URL,下載網頁,並返回該網頁的URL列表(使用urllib模塊) 任何幫助,將不勝感激從網頁提取所有鏈接
-3
A
回答
5
在這裏你去:
import sys
import urllib2
import lxml.html
try:
url = sys.argv[1]
except IndexError:
print "Specify a url to scrape"
sys.exit(1)
if not url.startswith("http://"):
print "Please include the http:// at the beginning of the url"
sys.exit(1)
html = urllib2.urlopen(url).read()
etree = lxml.html.fromstring(html)
for href in etree.xpath("//a/@href"):
print href
C:\Programming>getlinks.py http://example.com / /domains/ /numbers/ /protocols/ /about/ /go/rfc2606 /about/ /about/presentations/ /about/performance/ /reports/ /domains/ /domains/root/ /domains/int/ /domains/arpa/ /domains/idn-tables/ /protocols/ /numbers/ /abuse/ http://www.icann.org/ mailto:[email protected]?subject=General%20website%20feedback
相關問題
- 1. 從cefsharp上的網頁提取鏈接
- 2. 提取所有從網頁[R]
- 3. 從頁面抓取所有鏈接
- 4. Jsoup從頁面獲取所有鏈接
- 5. 從Python頁面中提取所有鏈接
- 6. 從Web頁面(Web爬蟲)中提取所有鏈接
- 7. Python和硒 - 從網頁獲取所有鏈接
- 8. 從無限大的網頁獲取所有文章鏈接?
- 9. 從HTML頁面提取所有鏈接,排除特定表格中的鏈接
- 10. 我試圖從一個網站提取所有鏈接,但只有一些鏈接被提取爲什麼?
- 11. 顯示網頁上的所有鏈接
- 12. jquery DomWindow網頁上的所有鏈接
- 13. 無法點擊從網頁提取的特定區域提取的所有鏈接
- 14. 從網站中提取鏈接
- 15. 從網站鏈接中提取
- 16. 無法找到BeautifulSoup的所有鏈接,以從網站中提取鏈接(鏈接標識)
- 17. sed從html頁面提取鏈接
- 18. 如何從HTML頁面提取鏈接?
- 19. 如何從網站獲取所有網站鏈接?
- 20. 如何以純文本的形式提取網頁上的所有URL(鏈接)?
- 21. 獲取頁面上的所有鏈接
- 22. [JAVA]從網頁獲取HTML鏈接
- 23. Python無法從網頁獲取鏈接
- 24. 從python網頁獲取鏈接
- 25. 從網頁獲取所有HTTP網址
- 26. 如何使用crawler4j提取頁面上的所有鏈接?
- 27. 我正在嘗試從網站獲取所有鏈接,並在所有鏈接上單擊一個鏈接
- 28. 使用Go lang從網頁中提取鏈接
- 29. 自動從網頁中提取供稿鏈接(原子,rss等)
- 30. 如何查找並從網頁中提取鏈接?
你有什麼這麼遠嗎?你有什麼具體問題? – Mat 2011-05-01 11:15:29
這個問題有多差? – 2011-05-01 11:19:08
我們不會爲你做你的功課。 – 2011-05-01 11:29:17