無法從通用抓取抓取的warc文件中找到網址

我抓取了來自常見抓取的數據，並且想要查找與每個記錄相對應的url。無法從通用抓取抓取的warc文件中找到網址

for record in files: 
    print record['WARC-Target-URI']

這將輸出一個空列表。我指的是以下鏈接 https://dmorgan.info/posts/common-crawl-python/。我們是否獲得了與每條記錄相對應的目標uri或者一個warc文件路徑只有一個目標uri？

來源

2017-07-17 Ravi Ranjan

這是很難理解的原因可能是沒有什麼詳細的日誌。 –

您是否更新了[dmorgan.info]（https://dmorgan.info/posts/common-crawl-python/）中的示例，以便URL和路徑指向正確的數據位置。該數據已於去年被移至s3：// commoncrawl /（參見[CC組]（https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion））： 1.刪除路徑前綴'common-crawl /' 2.將URL中的主機改爲'commoncrawl.s3.amazonaws.com'。 'https：// aws-publicdatasets.s3.amazonaws.com/common-crawl /'變成'https：// commoncrawl.s3.amazonaws.com /' –

是的，我有相應的路徑，我可以看到record.payload.read（）但記錄['WARC-Target-URI']的值不會返回任何值。記錄['Content-Language']的情況也是如此 –

您所追求的信息是標題的一部分。嘗試：

print record.header['WARC-Target-URI']

來源

2017-07-18 12:37:26

無法從通用抓取抓取的warc文件中找到網址

回答

相關問題