從網頁中提取含義全部內容

我正在通過使用我的抓取工具挖掘網頁內容來進行一些分析。網頁通常包含文章主體周圍的混亂（例如廣告，不必要的圖像和無關鏈接），從而將用戶從實際內容中分散出來。從網頁中提取含義全部內容

據我瞭解，提取合理的內容是一個難題，因爲沒有標準定義新聞報道/博客文章/論壇評論/文章在網頁中的實際位置。

我能找到一些這樣的開源解決方案：https://metacpan.org/pod/HTML::ContentExtractor

但我很好奇，如果有人已經處理了這一點，並得到合理的成功率。這似乎是一個相當普遍的問題，我想相信許多專家都在那裏。我更喜歡基於JAVA的解決方案，但這不是一個硬性規則。請給點意見。我會深表謝意。

來源

2009-02-19 user68142

理想情況下，您需要查找RSS源以獲取原始內容。

整體結構沒有標準&用HTML表示。作者在其頁面中定義了不同的元素。搜索引擎已經在這個領域投入了大量的資金，他們有自己的祕密醬油來索引內容，併爲搜索排名獲得某種含義的結構。

直到我們有了長時間的「語義網絡」，我們才能對任意HTML頁面的結構和含義進行有根據的猜測。

但理論上：

尋找標題標籤。這些應該爲您提供從何處開始閱讀的線索，並希望爲內容的重要性排列提綱。

尋找常見的元素ID和類。一個結構良好的網站可能有諸如<div id="content">和<div class="article">之類的內容，這與現在的語義一樣。也可以瞭解常見CMS平臺（如WordPress（「post」）或Drupal（「node」））使用的標準元素名稱。通常這些將用於標記內容。

最後但並非最不重要的是，尋找microformats。

來源

2009-02-19 01:57:06

現在有一個number of projects與此任務作爲他們的主要目標。

NPM包WCE（Javascript）很有意思，因爲它使用了一些其他的內容提取模塊。

對不起，我打算之前回答這個問題，但我很忙。

來源

2016-02-14 16:00:40 joeytwiddle

從網頁中提取含義全部內容

回答

相關問題