我需要創建一個html解析器,它給出一個博客URL,它返回一個列表,幷包含頁面中的所有帖子。Html解析器獲取博客文章
- I.e.如果網頁上有10個職位,它 應該返回的10個div的, 其中每個div包含H1和 一個p
我不能使用其RSS提要的列表,因爲我需要知道用戶的具體情況,如果它有任何廣告,圖片等,相比之下,一些博客只是對其內容進行了總結,而Feed卻有它,反之亦然。
無論如何,我已經做了一個下載它的源,並搜索HTML類似的內容,它對一些博客非常好,但對其他人不適用。
我不認爲我可以製作解析器,它可以解析所有博客的100%,但我希望儘可能做到最好。
什麼應該是最好的方法?查找ID爲「post」,「content」的標籤?尋找p標籤?等等等等等......
在此先感謝您的幫助!
HTML敏捷包只解析HTML。它無助於確定哪些部分是主要內容,哪些部分是廣告或典型樣板。 – 2011-04-15 21:52:14
我正在使用它與當前的解析器=) – Bruno 2011-04-15 21:54:14