2012-09-13 47 views
1

一些瀏覽器插件,如readability可以從網頁中提取'文章'。有沒有人有想法如何做到這一點?真實的文章和廣告或評論有什麼區別?算法在網頁中查找「文章」?

+0

我想你是在提及新聞文章或者有點。每個網站都有自己的HTML結構顯示文章,你必須爲每個網站創建特定的解析器來提取文章。沒有超級算法可以做到這一切。 – jondinham

+0

我不這麼認爲。至少有一個開源的文章提取:https://github.com/jiminoc/goose/wiki,我不相信可讀性實現了數以千計的解析器 –

回答

1

嗯,這取決於你想怎麼定義「真篇」 ......

以HTML5考慮,網頁構造語義標籤。不再需要使用像<div>這樣的元素來構建頁面,這些元素完全沒有語義含義。在HTML5中,您可以使用<section>,<article>,<header>and so on。這些元素可以給應用程序很好的理解什麼是網頁的主要內容(例如,打印<article> s和跳過<nav> s ...)

當然,還沒有很多頁面使用這些標籤。此外,標籤可能會被濫用並失去意義。在這種情況下,我會堅持一些統計數據,例如選擇HTML文檔中的最大元素。而且,如果你不得不刮一個網頁,你可以使用一些模式匹配算法,例如DIPRE的修改。