我想從Amazon S3下載WAT歸檔文件段的子集。從Common Crawl索引服務器獲取WAT歸檔文件子集的偏移量和長度
背景:
在搜索在http://index.commoncrawl.org產量約的WARC文件上AWS S3的位置信息的結果共同抓取索引。例如,搜索url=www.celebuzz.com/2017-01-04/*&output=json得到JSON格式的結果,其中一個是
{ "urlkey":"com,celebuzz)/2017-01-04/watch-james-corden-george-michael-tribute", ... "filename":"crawl-data/CC-MAIN-2017-34/segments/1502886104631.25/warc/CC-MAIN-20170818082911-20170818102911-00023.warc.gz", ... "offset":"504411150", "length":"14169", ... }
的filename
條目指示的歸檔段包含了這個特定頁面的WARC文件。這個檔案文件是巨大的;但幸運的是,條目還包含offset
和length
字段,其可用於請求包含檔案段的相關子集的字節範圍(參見例如lines 22-30 in this gist)。
我的問題:
給出一個WARC文件片段的位置,我知道如何構建相應的WAT存檔段的名稱(例如,參見this tutorial)。我只需要WAT文件的一個子集,所以我想請求一個字節範圍。但是如何找到WAT檔案段的相應偏移和長度?
我檢查了公共爬網索引服務器的API documentation,我不清楚這甚至是可能的。但如果是這樣,我發佈這個問題。
感謝您的回覆,這是我懷疑的。 – jmtroos