我正在構建一個使用Scrapy的爬蟲。我需要將字體族分配給特定的HTML元素。(Scrapy)如何獲取HTML元素的CSS規則?
比方說,有一個CSS文件,styles.css中,其中包含以下內容:
p {
font-family: "Times New Roman", Georgia, Serif;
}
而在HTML頁面中有文字如下:
<p>Hello how are you?</p>
它很容易對我來說使用Scrapy提取文本,但是我也想知道應用於的字體系列你好,你好嗎?
我希望它只是一個(想象中的XPATH)/p[font-family]
或類似的情況。
你知道我該怎麼做嗎?
感謝您的想法。
我個人認爲這不是Scrapy可以處理的東西:(你可能需要看看HTML渲染器的東西。 – starrify
你可以看看https://pythonhosted.org/tinycss/ –