我是一名新手,我即將參加本週末的比賽。問題在於歸檔和檢索大型HTML數據集,我不知道它。我的朋友建議我使用網絡存檔和通用爬網。請向我建議一種將HTML數據集轉換爲Web檔案並將其編入索引的方法。提前致謝。如何存檔和檢索大型HTML數據集?
0
A
回答
0
WARC格式是一個廣泛使用的標準,絕對是一個很好的決定,以存檔網頁。此外,HTTP標頭包含在WARC文件中。因此,您需要一個爬蟲來創建一個WARC文件。如果HTML頁面是作爲文件集合提供的,則需要抓取文件系統(例如通過本地HTTP服務器)以將內容導入WARC文件。
其他一切取決於具體的任務:有很多工具和庫
抓取並導出內容WARC:最簡單的就是
wget --warc-file
,但還有更多的閱讀WARC文件並處理內容。
請參閱The WARC Ecosystem獲取工具集合。如果您剛開始需要一個嚴重的WARC文件,請從共同抓取中抓取一個,例如,https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz
相關問題
- 1. 如何搜索大型XML數據集?
- 2. ElasticsearchTemplate檢索大數據集
- 3. 搜索大型數據集
- 4. 如何檢索大型網址Json數據集?
- 5. 如何更改和檢索HTML文檔
- 6. 如何在XPages中存儲/檢索大量數據集?
- 7. 如何從大型數據集中重複檢索一定數量的數據?
- 8. 使用Java存儲和檢索大型數據集的最佳方法
- 9. 如何存儲和檢索xml文檔
- 10. COBOL如何存儲和檢索數據?
- 11. DC和大型數據集
- 12. 存儲和檢索數據
- 13. 在大型數據集中搜索
- 14. 在Rails中搜索大型數據集
- 15. ios coredata搜索大型數據集
- 16. 解析jQuery的XML文檔和檢索HTML數據
- 17. 檢索並比較具有多列的超大型數據集
- 18. 使用RIA服務檢索大型數據集
- 19. 使用流利NHibernate檢索大型數據集
- 20. 檢索大型數據集以跨多個控制器共享
- 21. 大型數據集
- 22. 如何從HTML中檢索數據?
- 23. 存儲大型靜態數據集
- 24. 大型數據集的內存消耗
- 25. 如何高效地搜索子數據集的大數據集?
- 26. 如何從大型數據集中進行搜索建議
- 27. 如何爲大型數據集創建UITableView索引
- 28. 如何導入大型數據集?
- 29. PowerShell如何處理大型數據集?
- 30. 客戶端數據存儲和檢索HTML和JavaScript