給定一個HTML頁面,這是一篇重文章,我想識別並解析出主要內容。識別一個頁面的主要內容
以http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html爲例,我想識別div#post-4438372351887392855,其中包含標題和文章。
我知道什麼都不是完美的,或者100%的工作時間,但有沒有一種方法可以在合理的情況下給我想要的結果?
我現在的想法是遍歷每個div,剝離標記,然後找到包含最多文本的最內層的div。
在這一點上,我剛剛開始,所以尋找輸入我可以提出一個概念方法。或者,如果有東西在外面,開源庫會很好。
在此先感謝您的見解。