算法在網頁中查找「文章」？

一些瀏覽器插件，如readability可以從網頁中提取'文章'。有沒有人有想法如何做到這一點？真實的文章和廣告或評論有什麼區別？算法在網頁中查找「文章」？

2012-09-13 Lai Yu-Hsuan

我想你是在提及新聞文章或者有點。每個網站都有自己的HTML結構顯示文章，你必須爲每個網站創建特定的解析器來提取文章。沒有超級算法可以做到這一切。 – jondinham

我不這麼認爲。至少有一個開源的文章提取：https：//github.com/jiminoc/goose/wiki，我不相信可讀性實現了數以千計的解析器 –

嗯，這取決於你想怎麼定義「真篇」 ......

以HTML5考慮，網頁構造語義標籤。不再需要使用像<div>這樣的元素來構建頁面，這些元素完全沒有語義含義。在HTML5中，您可以使用<section>,<article>,<header>and so on。這些元素可以給應用程序很好的理解什麼是網頁的主要內容（例如，打印<article> s和跳過<nav> s ...）

當然，還沒有很多頁面使用這些標籤。此外，標籤可能會被濫用並失去意義。在這種情況下，我會堅持一些統計數據，例如選擇HTML文檔中的最大元素。而且，如果你不得不刮一個網頁，你可以使用一些模式匹配算法，例如DIPRE的修改。

來源

2012-09-13 19:16:51 emesx

算法在網頁中查找「文章」？

回答

相關問題