warc

1熱度

1回答

我有興趣下載以便稍後分析一堆網頁。有兩件事我想要做：將頁面和相關資源（圖像，與文章關聯的多個頁面等）下載到WARC文件。將所有鏈接更改爲指向現在的本地文件。我想用Python做到這一點。有沒有這樣做的好庫？ Scrapy似乎被設計爲刮取網站，而不是單個頁面，我不知道如何生成WARC文件。如果沒有更多的python native，調用wget是一個可行的解決方案。 Heritrix是完全矯枉

0熱度

1回答

將從常見抓取下載的warc.gz文件轉換爲RDD

我已經從常見抓取下載了warc.gz文件，我必須使用spark來處理它。如何將文件轉換爲RDD？ sc.textFile("filepath")似乎沒有幫助。當rdd.take(1)被打印時，它給了我[u'WARC/1.0']，而它應該給我一個完整的記錄。我如何將文件轉換爲可處理的rdd？謝謝！

1熱度

1回答

我們可以直接將WARC文件索引到Solr嗎？

我們能否指數從WARC的WARC文件直接導入Solr的不提取和存儲一些中間文件（例如：HTML格式）第一文件在硬盤上？換句話說，我們可以索引這些文件而不在硬盤上存儲任何東西嗎？

0熱度

1回答

無法從通用抓取抓取的warc文件中找到網址

我抓取了來自常見抓取的數據，並且想要查找與每個記錄相對應的url。 for record in files: print record['WARC-Target-URI'] 這將輸出一個空列表。我指的是以下鏈接 https://dmorgan.info/posts/common-crawl-python/。我們是否獲得了與每條記錄相對應的目標uri或者一個warc文件路徑只有一個目標

2熱度

1回答

從WARC.gz文件中提取頭文件

我一直在網站上搜索很多，但無法真正找到我需要的東西。我有其中包含數據的web.warc.gz文件，我需要提取WARC標題。我已經安裝Tomcat和韋巴克（1.6）試圖獲得與./warc-header腳本，這是由韋巴克提供的，但我不斷收到對我使用的格式的錯誤消息： Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.W

3熱度

2回答

開放WARC文件

我試圖使用工具箱從下面的鏈接來打開文件WARC與Python： http://warc.readthedocs.org/en/latest/ 當打開文件： import warc f = warc.open("00.warc.gz") 一切都很好，在F對象是： <warc.warc.WARCFile instance at 0x1151d34d0> 然而，當我試圖通過讀取文件中的一切：

0熱度

1回答

如何從warc文件中讀取記錄的子集

我試圖用Python從Common Crawl解析.warc文件。由於文件很大，我想從頭幾個記錄的樣本/子集開始。如何截斷文件以僅包含第一個X行，同時保留已安裝的換行符/回車符？這是我已經試過： head -n 250 oldfile > newfile這消除了一些需要解析該文件的回報。下面是我的錯誤，如果我嘗試使用這個文件在我的Hadoop作業（與warc包看完）： Traceback (

0熱度

1回答

關於Kibana導入的困惑

我想知道如何使用kibana導入數據。其實，它對我來說是一個混亂。我試圖使用kibana加載json文件，但它沒有導入它。第二，如果我想與WARC文件工作，他們這樣做，我需要將其轉換成JSON文件，然後導入或是否有任何其他的解決方案，我需要工作。希望聽到答覆。

1熱度

1回答

如何在python3中用lzma（* .warc.xz）壓縮warc記錄？

我有一個warc記錄列表。在列表中每一個項目創建這樣的： header = warc.WARCHeader({ "WARC-Type": "response", "WARC-Target-URI": "www.somelink.com", }, defaults=True) data = "Some string" record = warc.WARCRecord(hea

0熱度

1回答

如何存檔和檢索大型HTML數據集？

我是一名新手，我即將參加本週末的比賽。問題在於歸檔和檢索大型HTML數據集，我不知道它。我的朋友建議我使用網絡存檔和通用爬網。請向我建議一種將HTML數據集轉換爲Web檔案並將其編入索引的方法。提前致謝。