這不是一個真正的編程問題,更多的算法問題。查找HTML部分文檔的內容
問題:查找HTML頁面的「內容」部分。
「內容」指的是包含人類看到的頁面內容的dom,沒有噪音,只是「頁面實際內容」。 我知道問題沒有很好的定義,但讓我們繼續... 例如在博客網站中,這通常很容易,當瀏覽到特定的帖子時,您通常會在頁面的頂部有一些工具欄,也許有些導航元素在LHS上,然後你有包含內容的div。試圖從HTML中弄清楚這一點可能會很棘手。然而幸運的是,大多數博客都有RSS源,在這個特定帖子的Feed中,您會發現<說明>部分(或<內容:編碼>),這正是您想要的。 因此,爲了優化內容的定義,這是包含有趣部分的實際內容,刪除所有廣告,導航元素等。 因此,從博客中查找內容相對容易,假設他們擁有RSS。其他RSS支持網站也一樣。
新聞網站呢?在很多情況下,新聞網站都有RSS,但並非總是如此。如何在新聞網站上找到內容? 更一般的網站呢?許多網頁(當然不是全部)都有內容部分和其他部分。你能想出一個好的算法來找到那些「有趣」的部分,而不是那麼有趣?也許從那些不變的部分改變了?
希望我已經說清楚了......謝謝!
對於網絡上的大多數網頁,您很好地發現任何「有趣的部分」 – 2009-08-04 09:12:17
這是一個難以回答的問題。如果很容易從噪音中識別「有趣的內容」,那麼每個人都會使用「噪音」過濾器,就像Adblock用於阻止廣告一樣。 也就是說,通常,用戶看到的內容(基本上剝離了標記和腳本邏輯的html文件的全部內容)可能包含「信息」,並且可以使用htmlToText轉換器提取。來自www.htmlparser.org的StringBean類可以用來做到這一點(java)。 – hashable 2009-08-28 00:27:10