我正在做一堆野外着陸頁的比較。我試圖拉出主標題和行動號召,但當然HTML頁面的格式變化很大。Nokogiri在頁面上識別最大文本的策略?
我開始尋找H1,H2等,假設標題標籤對應於首要性,但通常情況並非如此。渲染字體大小*可能是一個更好的指標,但是這看起來很混亂,並且不會處理使用帶alt標記的圖像的情況。
使用Nokogiri確定100個野外着陸頁的主標題有什麼好方法?
*另外 - 是否有一個聰明的選擇器呈現字體大小?
我正在做一堆野外着陸頁的比較。我試圖拉出主標題和行動號召,但當然HTML頁面的格式變化很大。Nokogiri在頁面上識別最大文本的策略?
我開始尋找H1,H2等,假設標題標籤對應於首要性,但通常情況並非如此。渲染字體大小*可能是一個更好的指標,但是這看起來很混亂,並且不會處理使用帶alt標記的圖像的情況。
使用Nokogiri確定100個野外着陸頁的主標題有什麼好方法?
*另外 - 是否有一個聰明的選擇器呈現字體大小?
除非您有一個可以確定文檔中語義上最重要的部分的AI,否則無法做到這一點。
你不能指望標籤,比如標題或元標籤,因爲這些標籤可能完全缺失。
你不能指望源代碼中的位置,因爲CSS可以在任何地方移動東西。
而且,即使您認爲您已經通過查看CSS來釘住它,JavaScript也可以從您那裏擷取現實,因爲它可以覆蓋所有內容,依靠人類眼睛和大腦有意義的事實最終呈現的頁面。
所以,基本上,你將主要在黑暗中拍攝,除非你有能夠理解頁面內容的代碼,並確定一個單詞出現的頻率以及它的同義詞和它的根詞,然後在之後確定他們在頁面上的位置已經運行了CSS和JavaScript。
許多大公司花費大量資金確實是一項艱鉅的任務。
同意。我花在這上面的時間越多,我添加到數據集中的頁面集越多,我發現的邊緣案例就越多。我傾向於採用相對愚蠢的啓發式方法來提取80/20解決方案,然後將這些解決方案與屏幕截圖一併提示,以供人員確認/清理。 – RSG
這是我走下的路。當我編寫代碼進行關鍵字分析時,我受益於與具有該領域博士學位的語言學專家一起工作,並且我們如何通過單獨的解決這個難題的路徑得出相同的結論非常有趣特別的堅果。儘管這是一個很大的挑戰。 –
如果他們在h1/2中沒有標題,上帝保佑他們的谷歌地位;) –