確定主要文章圖像 - HTML敏捷包

我想使用HTML敏捷包確定主要文章正文，然後從中提取主要文章圖像。確定主要文章圖像 - HTML敏捷包

我注意到，大多數網站的網站管理員都有他們的主要內容容器包含標籤，但這並非每次都有規則，所以我不能根據我的假設。

下面的2個printscreens來自這2個網站。

http://www.24matins.fr/the-walking-dead-saison-4-le-deces-de-ce-personnage-ne-sera-pas-anodin-40685

http://www.lasemainedansleboulonnais.fr/actualite/la_une/2013/04/04/article__20_ans_prison_meurtre_de_sa_mere_boulogne.shtml

這些只是我想刮網站的一些例子。

content to rip

謝謝！

來源

2013-05-13 Dragos Durlut

http://stackoverflow.com/questions/12239128/how-to-extract-article-text-contents-from-html-page-like-pocket-read-it-later – I4V 2013-05-13 13:28:02

事實上，沒有定義的假設來實現你想要的通用方式。

首先，你必須記住，網站是不同的，可以在任何時候改變，所以任何嘗試得到一個不可抵抗的算法是在大多數情況下浪費時間。

在這種情況下，如果你的網站來解析短短數，那麼你可以計算出每一個的當前內容配置模式，並與HTML敏捷性包解析它，例如：

24matins：有一個叫「後首部」類，第一<img>是主要的文章圖像的DIV，然後用HAP你可以寫：

var web = new HtmlWeb(); 
var doc = web.Load("http://www.24matins.fr/the-walking-dead-saison-4-le-deces-de-ce-personnage-ne-sera-pas-anodin-40685"); 
var img = doc.DocumentNode.SelectSingleNode("//div[@class='post-header']/img"); 
Console.WriteLine(img.Attributes["src"].Value);

lasemaine ..：有一種獨特的div其班級名爲「illust口糧「，所以：

web = new HtmlWeb(); 
doc = web.Load("http://www.lasemainedansleboulonnais.fr/actualite/la_une/2013/04/04/article__20_ans_prison_meurtre_de_sa_mere_boulogne.shtml"); 
img = doc.DocumentNode.SelectSingleNode("//div[@class='illustrations']/img"); 
Console.WriteLine(img.Attributes["src"].Value);

另外，我建議你使用站點的RSS源來獲取相關信息。一般來說，他們包括文章的圖片，並且更有可能具有可識別的模式，因爲您可以在www.24matins.fr/feed/rss-toutes-actualites中查看。

希望它有幫助。

來源

2013-05-29 18:39:36 natenho

您可以掃描社交網站元標記給定網址的HTML內容。例如，對於Facebook的將是：

<meta property="og:image" content="_here_is_URL_of_main_article_image_" />

但像natenho說是沒有一個肯定的方式，將永遠工作。

來源

2017-03-14 10:12:34

確定主要文章圖像 - HTML敏捷包

回答

相關問題