我正在通過使用我的抓取工具挖掘網頁內容來進行一些分析。網頁通常包含文章主體周圍的混亂(例如廣告,不必要的圖像和無關鏈接),從而將用戶從實際內容中分散出來。從網頁中提取含義全部內容
據我瞭解,提取合理的內容是一個難題,因爲沒有標準定義新聞報道/博客文章/論壇評論/文章在網頁中的實際位置。
我能找到一些這樣的開源解決方案:https://metacpan.org/pod/HTML::ContentExtractor
但我很好奇,如果有人已經處理了這一點,並得到合理的成功率。這似乎是一個相當普遍的問題,我想相信許多專家都在那裏。我更喜歡基於JAVA的解決方案,但這不是一個硬性規則。請給點意見。我會深表謝意。