2012-01-29 25 views
0

我試圖重現由Clearly完成的網頁的「內容檢測」。內容檢測算法

給定一個網頁,我想自動區分文本內容,而不是文本菜單,文字廣告,文字按鈕等

適合什麼算法來檢測從HTML頁的文字內容?

[在StackOverflow的情況下,內容將是實際問題。其餘的只是「圍繞內容的鬆散」。]

+0

可能重複[什麼算法確實可讀性使用了從URL中提取文本?](http://stackoverflow.com/questions/3652657/what-algorithm-does-readability-use-for-extracting -text-from-urls) – Regexident 2012-01-29 16:16:25

回答