如何存檔和檢索大型HTML數據集？

我是一名新手，我即將參加本週末的比賽。問題在於歸檔和檢索大型HTML數據集，我不知道它。我的朋友建議我使用網絡存檔和通用爬網。請向我建議一種將HTML數據集轉換爲Web檔案並將其編入索引的方法。提前致謝。如何存檔和檢索大型HTML數據集？

2016-08-18 Sriram S

WARC格式是一個廣泛使用的標準，絕對是一個很好的決定，以存檔網頁。此外，HTTP標頭包含在WARC文件中。因此，您需要一個爬蟲來創建一個WARC文件。如果HTML頁面是作爲文件集合提供的，則需要抓取文件系統（例如通過本地HTTP服務器）以將內容導入WARC文件。

其他一切取決於具體的任務：有很多工具和庫

2016-08-19 09:52:28

回答