2009-08-03 43 views
1

給定一個HTML頁面,這是一篇重文章,我想識別並解析出主要內容。識別一個頁面的主要內容

http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html爲例,我想識別div#post-4438372351887392855,其中包含標題和文章。

我知道什麼都不是完美的,或者100%的工作時間,但有沒有一種方法可以在合理的情況下給我想要的結果?

我現在的想法是遍歷每個div,剝離標記,然後找到包含最多文本的最內層的div。

在這一點上,我剛剛開始,所以尋找輸入我可以提出一個概念方法。或者,如果有東西在外面,開源庫會很好。

在此先感謝您的見解。

回答

1

arc90的一些人通過他們的readability bookmarklet做了相當令人印象深刻的工作。 它似乎做了一個很好的找到'主要'的內容 - 作品在你完美列出的頁面上。
你可以通過他們很好的評論JavaScript(鏈接到書籤),但你可能想聯繫開發者的想法和使用它們的權限。

相關問題