2016-08-18 63 views
0

我是一名新手,我即將參加本週末的比賽。問題在於歸檔和檢索大型HTML數據集,我不知道它。我的朋友建議我使用網絡存檔和通用爬網。請向我建議一種將HTML數據集轉換爲Web檔案並將其編入索引的方法。提前致謝。如何存檔和檢索大型HTML數據集?

回答

0

WARC格式是一個廣泛使用的標準,絕對是一個很好的決定,以存檔網頁。此外,HTTP標頭包含在WARC文件中。因此,您需要一個爬蟲來創建一個WARC文件。如果HTML頁面是作爲文件集合提供的,則需要抓取文件系統(例如通過本地HTTP服務器)以將內容導入WARC文件。

其他一切取決於具體的任務:有很多工具和庫

  1. 抓取並導出內容WARC:最簡單的就是wget --warc-file,但還有更多的

  2. 閱讀WARC文件並處理內容。

請參閱The WARC Ecosystem獲取工具集合。如果您剛開始需要一個嚴重的WARC文件,請從共同抓取中抓取一個,例如,https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz