1
一些瀏覽器插件,如readability可以從網頁中提取'文章'。有沒有人有想法如何做到這一點?真實的文章和廣告或評論有什麼區別?算法在網頁中查找「文章」?
一些瀏覽器插件,如readability可以從網頁中提取'文章'。有沒有人有想法如何做到這一點?真實的文章和廣告或評論有什麼區別?算法在網頁中查找「文章」?
嗯,這取決於你想怎麼定義「真篇」 ......
以HTML5考慮,網頁構造語義標籤。不再需要使用像<div>
這樣的元素來構建頁面,這些元素完全沒有語義含義。在HTML5中,您可以使用<section>
,<article>
,<header>
and so on。這些元素可以給應用程序很好的理解什麼是網頁的主要內容(例如,打印<article>
s和跳過<nav>
s ...)
當然,還沒有很多頁面使用這些標籤。此外,標籤可能會被濫用並失去意義。在這種情況下,我會堅持一些統計數據,例如選擇HTML文檔中的最大元素。而且,如果你不得不刮一個網頁,你可以使用一些模式匹配算法,例如DIPRE的修改。
我想你是在提及新聞文章或者有點。每個網站都有自己的HTML結構顯示文章,你必須爲每個網站創建特定的解析器來提取文章。沒有超級算法可以做到這一切。 – jondinham
我不這麼認爲。至少有一個開源的文章提取:https://github.com/jiminoc/goose/wiki,我不相信可讀性實現了數以千計的解析器 –