2009-02-19 38 views
1

我正在通過使用我的抓取工具挖掘網頁內容來進行一些分析。網頁通常包含文章主體周圍的混亂(例如廣告,不必要的圖像和無關鏈接),從而將用戶從實際內容中分散出來。從網頁中提取含義全部內容

據我瞭解,提取合理的內容是一個難題,因爲沒有標準定義新聞報道/博客文章/論壇評論/文章在網頁中的實際位置。

我能找到一些這樣的開源解決方案:https://metacpan.org/pod/HTML::ContentExtractor

但我很好奇,如果有人已經處理了這一點,並得到合理的成功率。這似乎是一個相當普遍的問題,我想相信許多專家都在那裏。我更喜歡基於JAVA的解決方案,但這不是一個硬性規則。請給點意見。我會深表謝意。

回答

1

理想情況下,您需要查找RSS源以獲取原始內容。

整體結構沒有標準&用HTML表示。作者在其頁面中定義了不同的元素。搜索引擎已經在這個領域投入了大量的資金,他們有自己的祕密醬油來索引內容,併爲搜索排名獲得某種含義的結構。

直到我們有了長時間的「語義網絡」,我們才能對任意HTML頁面的結構和含義進行有根據的猜測。

但理論上:

尋找標題標籤。這些應該爲您提供從何處開始閱讀的線索,並希望爲內容的重要性排列提綱。

尋找常見的元素ID和類。一個結構良好的網站可能有諸如<div id="content"><div class="article">之類的內容,這與現在的語義一樣。也可以瞭解常見CMS平臺(如WordPress(「post」)或Drupal(「node」))使用的標準元素名稱。通常這些將用於標記內容。

最後但並非最不重要的是,尋找microformats

0

現在有一個number of projects與此任務作爲他們的主要目標。

NPM包WCE(Javascript)很有意思,因爲它使用了一些其他的內容提取模塊。

對不起,我打算之前回答這個問題,但我很忙。