0
我抓取了來自常見抓取的數據,並且想要查找與每個記錄相對應的url。無法從通用抓取抓取的warc文件中找到網址
for record in files:
print record['WARC-Target-URI']
這將輸出一個空列表。我指的是以下鏈接 https://dmorgan.info/posts/common-crawl-python/。我們是否獲得了與每條記錄相對應的目標uri或者一個warc文件路徑只有一個目標uri?
這是很難理解的原因可能是沒有什麼詳細的日誌。 –
您是否更新了[dmorgan.info](https://dmorgan.info/posts/common-crawl-python/)中的示例,以便URL和路徑指向正確的數據位置。該數據已於去年被移至s3:// commoncrawl /(參見[CC組](https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion)): 1.刪除路徑前綴'common-crawl /' 2.將URL中的主機改爲'commoncrawl.s3.amazonaws.com'。 'https:// aws-publicdatasets.s3.amazonaws.com/common-crawl /'變成'https:// commoncrawl.s3.amazonaws.com /' –
是的,我有相應的路徑,我可以看到record.payload.read()但記錄['WARC-Target-URI']的值不會返回任何值。記錄['Content-Language']的情況也是如此 –