2017-07-17 56 views
0

我抓取了來自常見抓取的數據,並且想要查找與每個記錄相對應的url。無法從通用抓取抓取的warc文件中找到網址

for record in files: 
    print record['WARC-Target-URI'] 

這將輸出一個空列表。我指的是以下鏈接 https://dmorgan.info/posts/common-crawl-python/。我們是否獲得了與每條記錄相對應的目標uri或者一個warc文件路徑只有一個目標uri?

+0

這是很難理解的原因可能是沒有什麼詳細的日誌。 –

+0

您是否更新了[dmorgan.info](https://dmorgan.info/posts/common-crawl-python/)中的示例,以便URL和路徑指向正確的數據位置。該數據已於去年被移至s3:// commoncrawl /(參見[CC組](https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion)): 1.刪​​除路徑前綴'common-crawl /' 2.將URL中的主機改爲'commoncrawl.s3.amazonaws.com'。 'https:// aws-publicdatasets.s3.amazonaws.com/common-crawl /'變成'https:// commoncrawl.s3.amazonaws.com /' –

+0

是的,我有相應的路徑,我可以看到record.payload.read()但記錄['WARC-Target-URI']的值不會返回任何值。記錄['Content-Language']的情況也是如此 –

回答

0

您所追求的信息是標題的一部分。嘗試:

print record.header['WARC-Target-URI']