網絡抓取：全部href

2017-05-11 137 views 1 likes

我寫了一個小腳本，用python從網頁中讀取所有的hrefs。但它有一個問題。例如，它不會讀取href="pages.php?ef=fa&page=n_fullstory.php&NewsIDn=1648"。網絡抓取：全部href

代碼：

import urllib 
import re 

urls = ["http://something.com"] 

regex='href=\"(.+?)\"' 
pattern = re.compile(regex) 

htmlfile = urllib.urlopen(urls[0]) 
htmltext = htmlfile.read() 
hrefs = re.findall(pattern,htmltext) 
print hrefs

任何人可以幫助我嗎？謝謝。

來源

2017-05-11 Karim Pazoki

一般建議：不要用正則表達式解析HTML。雖然你可以實施你的特定案例，但如果你需要更多的東西，它可能會非常快速地變得非常混亂。改爲使用正確的解析庫。查看[BeautifulSoup]（https://www.crummy.com/software/BeautifulSoup/bs4/doc/）或['lxml.html']（http://lxml.de/lxmlhtml.html）。或者甚至可能是[Scrapy]（https://scrapy.org/）。 – drdaeman

回答

使用BEautifulSoup和請求靜態網站。它是一個偉大的網頁報廢模塊，使用代碼，很容易就可以獲得href標籤內的值。希望它有幫助

import requests 
from bs4 import BeautifulSoup 

url = 'whatever url you want to parse' 

result = requests.get(url) 

soup = BeautifulSoup(result.content,'html.parser') 

for a in soup.find_all('a',href=True): 
    print "Found the URL:", a['href']

來源

2017-05-11 15:34:02 Exprator

相關問題

11. 網絡抓取登錄
12. 網絡抓取和robots.txt
13. 網絡抓取鏈接表
14. 優化網絡抓取
15. 抓取網址的結尾文本href
16. 在網絡上獲取.mov全部
17. 網絡抓取，獲取空列表
18. 多線程網絡抓取數據的安全存儲
19. 如何編寫代碼到網絡抓取和抓取R
20. Python多線程網絡抓取
21. 卡在網絡抓取代碼
22. R - 網絡抓取日期選擇器
23. PHP網絡抓取HTMLDOM分頁
24. scraperjs：網絡抓取代碼不工作
25. 技術爲網絡抓取需要？
26. 網絡抓取字體訪問問題
27. PHP網絡抓取教程失敗
28. 使用Python/Pexpect的抓取網絡
29. java.net.SocketTimeoutException在網絡抓取時出錯
30. 使用R網絡抓取數據