3
HTML文本抓取可以在網絡中找到各種庫。我試圖從各種HTML頁面解析網頁的最大標題(標題) - 只有這一點 - 。基於字體和字體大小的網頁抓取
我試圖從幾百頁(它可以是產品頁面或文章頁面等)自動檢測項目的主標題。如果有一種方法可以根據網頁中可用文本的字體和字體大小進行解析決定,那就太棒了。由於主要標題幾乎總是網頁中字體最大的文本,因此這些信息可以讓我深入瞭解在哪裏可以找到標題。
所以問題是,有什麼辦法可以做到這一點?
找到最高的「」元素會不會更容易?即如果有一個「」,其間有一些文字,請使用它。否則請嘗試h2,h3,... –
L3viathan
不幸的是,它並不總是在標籤中,即使有時在實際產品/ artice名稱/標題上還有其他各種元素。編輯的問題不應該有提到標題可以混淆 –
ralzaul
基於大小的檢測問題是,有這麼多來源的大小計算。您可能需要一個實際的HTML渲染器,並從中讀取有效大小。此外,有時標題不是網站上最大的文字。 – L3viathan