-2
我是新來的Python,我試圖學習網絡抓取。如何在Python中提取<h1></h1>之間的href鏈接?
我有下面的代碼,並想知道如何獲得/打印HREF或鏈接:
< .h1> < .A HREF =「https://www.nytimes.com/tips 「有一個機密的新聞提示?
我是新來的Python,我試圖學習網絡抓取。如何在Python中提取<h1></h1>之間的href鏈接?
我有下面的代碼,並想知道如何獲得/打印HREF或鏈接:
< .h1> < .A HREF =「https://www.nytimes.com/tips 「有一個機密的新聞提示?
您可以使用BeautifulSoup
得到這個工作做完:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
response = urlopen("http://someurl.com")
page_source = response.read()
soup = BeautifulSoup(page_source, 'html.parser')
x = soup.find_all('h1')
print (x)
那麼所有你需要做的就是從輸出使用re
模塊和提取數據。
類似於http://stackoverflow.com/questions/42173719/how-to-use-regular-expression-to-retrieve-data-in-python/42173798#42173798 –
另一個類似的https:// stackoverflow。 COM /問題/ 3075550 /如何-可以-I-GET-HREF鏈接,從-HTML-使用的Python – Tudor