common-crawl

0熱度

2回答

我想解析從常見爬網下載的warc.gz文件。我有一個要求，我必須手動解析新聞warc.gz文件。兩個記錄之間的分隔符是什麼？

0熱度

2回答

用於查詢CommonCrawl以填充數字對象標識符（DOI）的Java API數據庫

我試圖創建在因特網上找到的數字對象標識符（DOI）的數據庫。通過手動手動搜索CommonCrawl索引服務器我已經獲得了一些有希望的結果。但是我希望開發一個程序化的解決方案。這可能會導致我的進程只需要讀取索引文件而不讀取底層的WARC數據文件。我希望自動化的手動步驟如下： - 1）。每個CommonCrawl當前可用的索引集合： 2）。我搜索...「Search a url in this

0熱度

1回答

如何存檔和檢索大型HTML數據集？

我是一名新手，我即將參加本週末的比賽。問題在於歸檔和檢索大型HTML數據集，我不知道它。我的朋友建議我使用網絡存檔和通用爬網。請向我建議一種將HTML數據集轉換爲Web檔案並將其編入索引的方法。提前致謝。

0熱度

1回答

箱子常見抓取示例不起作用

我想用這個箱子的例子：普通抓取：https://github.com/crate/crate-commoncrawl 我已經設置了箱子，甚至使用示例中的指令創建了表架構。我正在使用URL訪問CRATE：http://localhost:4200/_plugin/crate-admin，因爲我在自己的系統上工作。我面臨的唯一問題是與COPY。讓我告訴你那一行： COPY commoncrawl

0熱度

1回答

將從常見抓取下載的warc.gz文件轉換爲RDD

我已經從常見抓取下載了warc.gz文件，我必須使用spark來處理它。如何將文件轉換爲RDD？ sc.textFile("filepath")似乎沒有幫助。當rdd.take(1)被打印時，它給了我[u'WARC/1.0']，而它應該給我一個完整的記錄。我如何將文件轉換爲可處理的rdd？謝謝！

0熱度

1回答

Hadoop過程WARC文件

我有一個關於Hadoop文件分割和多個映射器的一般問題。我是Hadoop的新手，並試圖掌握如何設置最佳性能。我的項目目前正在處理GZIPed的WARC文件。使用當前的InputFileFormat，文件被髮送到一個映射器並且不被分割。我知道這是加密文件的正確行爲。在運行作業之前解密文件作爲一箇中間步驟，以允許拆分作業並因此使用更多映射器，會有性能優勢嗎？這可能嗎？是否有更多的映射器會在延遲上創

1熱度

2回答

從Common Crawl索引服務器獲取WAT歸檔文件子集的偏移量和長度

我想從Amazon S3下載WAT歸檔文件段的子集。背景：在搜索在http://index.commoncrawl.org產量約的WARC文件上AWS S3的位置信息的結果共同抓取索引。例如，搜索url=www.celebuzz.com/2017-01-04/*&output=json得到JSON格式的結果，其中一個是 { "urlkey":"com,celebuzz)/2017-01-04/

0熱度

1回答

常見爬網AWS公共數據集轉移成本

我實際上在處理Common Crawl數據集，我想知道將數據從原始S3存儲桶傳輸到EC2集羣的成本？是否有任何收費或它是完全免費的？

0熱度

2回答

MRJob確定是否在線，本地，emr或hadoop運行

我是building on some old code from a few years back using the commoncrawl dataset與EMR使用MRJob。該代碼使用下列內MRJob子類映射函數來確定是否在本地或EMR運行： self.options.runner == 'emr' 這似乎無論是從來沒有工作過或不再工作，self.options.runner不通過該任

0熱度

1回答

無法從通用抓取抓取的warc文件中找到網址

我抓取了來自常見抓取的數據，並且想要查找與每個記錄相對應的url。 for record in files: print record['WARC-Target-URI'] 這將輸出一個空列表。我指的是以下鏈接 https://dmorgan.info/posts/common-crawl-python/。我們是否獲得了與每條記錄相對應的目標uri或者一個warc文件路徑只有一個目標