我試圖創建在因特網上找到的數字對象標識符(DOI)的數據庫。 通過手動手動搜索CommonCrawl索引服務器我已經獲得了一些有希望的結果。 但是我希望開發一個程序化的解決方案。 這可能會導致我的進程只需要讀取索引文件而不讀取底層的WARC數據文件。 我希望自動化的手動步驟如下: - 1)。每個CommonCrawl當前可用的索引集合: 2)。我搜索...「Search a url in this
我是building on some old code from a few years back using the commoncrawl dataset與EMR使用MRJob。該代碼使用下列內MRJob子類映射函數來確定是否在本地或EMR運行: self.options.runner == 'emr'
這似乎無論是從來沒有工作過或不再工作,self.options.runner不通過該任
我抓取了來自常見抓取的數據,並且想要查找與每個記錄相對應的url。 for record in files:
print record['WARC-Target-URI']
這將輸出一個空列表。我指的是以下鏈接 https://dmorgan.info/posts/common-crawl-python/。我們是否獲得了與每條記錄相對應的目標uri或者一個warc文件路徑只有一個目標