我試圖找到所有具有作者的meta標籤。它有效,如果我有一個特定的鍵和正則表達式值。當兩者都是正則表達式時它不起作用。是否有可能提取頁面中包含「author」關鍵字的所有meta標籤? 這是我寫的代碼。Beautifulsoup在meta標籤中找到特定值
from bs4 import BeautifulSoup
page = requests.get(url)
contents = page.content
soup = BeautifulSoup(contents, 'lxml')
preys = soup.find_all("meta", attrs={re.compile('.*'): re.compile('author')})
編輯: 爲了澄清,我想明確解決的問題是,如果值「的作者」被映射到任何按鍵。這個關鍵可能是「itemprop」,「name」甚至「property」,正如我在各種例子中看到的那樣。基本上,我的問題是拉取所有具有作者作爲其值的元標記,無論該值具有什麼關鍵。 幾個例子是這樣的:
<meta content="Jami Miscik" name="citation_author"/>
<meta content="Will Ripley, Joshua Berlinger and Allison Brennan, CNN" itemprop="author"/>
<meta content="Alison Griswold" property="author"/>
是否文檔暗示的地方,屬性名可以是一個正則表達式?我無法在https://www.crummy.com/software/BeautifulSoup/bs4/doc/#attrs找到任何暗示 – Tomalak
可能是這種情況。如果是這樣,我將不得不收集所有可能的密鑰並檢查它們的值。 – Furkanicus