我正在研究一種算法,它會嘗試挑選出給定HTML文件,它認爲是最有可能包含頁面內容文本大部分的父元素。 例如,它會選擇在以下HTML中的div「內容」:從HTML文檔中刮掉最大的文本塊
<html>
<body>
<div id="header">This is the header we don't care about</div>
<div id="content">This is the <b>Main Page</b> content. it is the
longest block of text in this document and should be chosen as
most likely being the important page content.</div>
</body>
</html>
我想出了一些想法,如遍歷HTML文檔樹的葉子,加起來的長度文本,並且只有在家長給我們比孩子們更多的內容時才能看到父母有什麼其他文本。
有沒有人曾經嘗試過這樣的事情,或知道可以應用的算法?它並不一定是固定的,但只要它可以猜測包含大部分頁面內容文本的容器(例如文章或博客文章),那就太棒了。
任何運氣最大?我正在嘗試做同樣的事情。 – 2010-12-19 18:17:52
查看我的回答我剛剛添加。 – Max 2010-12-29 22:40:03