2012-08-06 117 views
0

我希望抓取工具能夠識別哪些網頁(例如新聞網站)是實際內容(即文章),而不是關於,聯繫人,類別列表等。只抓取文章/內容

迄今爲止,我發現沒有優雅的方式,因爲內容的標準似乎因網站而異(沒有常見的標籤/佈局/協議等)。任何人都可以將我引導到圖書館或方法,以確定一定程度的網站是否是一段內容?在抓取候選頁面之後進行區分是完全可以接受的。

除了已經存在的任何東西,我還要感謝任何關於此領域現有/正在進行的研究的出發點。

回答

0

您可以先檢查Boilerpipe framework。他們的項目頁面提供在線提取演示。如果提取結果對你的情況不是很好,你需要擴展它們的算法。