識別一個頁面的主要內容

給定一個HTML頁面，這是一篇重文章，我想識別並解析出主要內容。識別一個頁面的主要內容

以http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html爲例，我想識別div＃post-4438372351887392855，其中包含標題和文章。

我知道什麼都不是完美的，或者100％的工作時間，但有沒有一種方法可以在合理的情況下給我想要的結果？

我現在的想法是遍歷每個div，剝離標記，然後找到包含最多文本的最內層的div。

在這一點上，我剛剛開始，所以尋找輸入我可以提出一個概念方法。或者，如果有東西在外面，開源庫會很好。

在此先感謝您的見解。

arc90的一些人通過他們的readability bookmarklet做了相當令人印象深刻的工作。它似乎做了一個很好的找到'主要'的內容 - 作品在你完美列出的頁面上。
你可以通過他們很好的評論JavaScript（鏈接到書籤），但你可能想聯繫開發者的想法和使用它們的權限。

2009-08-03 04:49:12

初級內容提取資源的最完整的彙總列表是：

也看在評論，因爲有額外的提示。

2011-12-29 18:52:47

回答