0
這是網絡爬蟲的模式識別任務。傳統的爬蟲獲取整個頁面的數據。如果有任何方法可以使爬蟲智能化,就像識別和捕獲信息部分一樣。如何從同一個網站的多個網頁發現公共信息塊?
這是網絡爬蟲的模式識別任務。傳統的爬蟲獲取整個頁面的數據。如果有任何方法可以使爬蟲智能化,就像識別和捕獲信息部分一樣。如何從同一個網站的多個網頁發現公共信息塊?
它被稱爲包裝歸納或網絡數據提取研究問題。我不知道任何圖書館,但有很多研究論文(見恕我直言,以下列出的好的)和一些研究項目,如DIADEM(其網站也包含出版物列表)。