如何從同一個網站的多個網頁發現公共信息塊？

這是網絡爬蟲的模式識別任務。傳統的爬蟲獲取整個頁面的數據。如果有任何方法可以使爬蟲智能化，就像識別和捕獲信息部分一樣。如何從同一個網站的多個網頁發現公共信息塊？

2015-05-29 Fan Phill

它被稱爲包裝歸納或網絡數據提取研究問題。我不知道任何圖書館，但有很多研究論文（見恕我直言，以下列出的好的）和一些研究項目，如DIADEM（其網站也包含出版物列表）。

Muslea，Ion，Steven Minton和Craig A. Knoblock。「Hierarchical Wrapper Induction for Semistructured Information Sources」。自治代理和多代理系統4，no。 1-2（2001）：93-114。
Dalvi，Nilesh，Ravi Kumar和Mohamed Soliman。「Automatic Wrappers for Large Scale Web Extraction.」訴訟的VLDB捐贈4，沒有。 4（2011）：219-230。
Dalvi，Nilesh，Ashwin Machanavajjhala和Bo Pang。「在網絡上分析結構化數據。」VLDB Endowment 5，no。 7（2012）：680-691。
Gentile，Anna Lisa，Ziqi Zhang，Isabelle Augenstein和Fabio Ciravegna。「Unsupervised Wrapper Induction Using Linked Data。」第七屆國際知識會議論文集 Capture，41-48,2013.
Weninger，Tim，and Jiawei Han。在網絡搜索和數據挖掘，779-780在第六屆ACM國際會議論文集 2013年 http://dl.acm.org/citation.cfm?id=2433499：「半結構化的Web的提取和整合上探索結構和內容的網頁。」

2015-05-29 10:42:53

回答