我想解析從常見爬網下載的warc.gz文件。我有一個要求,我必須手動解析新聞warc.gz文件。兩個記錄之間的分隔符是什麼?warc.gz文件的兩個記錄之間的分隔符
0
A
回答
0
我不認爲你可以手動解析gzip文件。您最好的選擇是使用the index找出每條記錄的偏移量和長度。有關更多信息,請參見api documentation和the guides。
如果您手動解析WARC文件,請首先解壓縮.gz文件。
WARC records are separated by two newlines:
一個WARC格式的文件是一個或多個WARC 記錄的簡單拼接。一條記錄由一條記錄標題和一條記錄 內容塊和兩條換行符組成。 (換行符是其他 Internet標準的CRLF。)
0
WARC文件中沒有明確的記錄分隔符。記錄始終以'\ r \ n \ r \ n'結尾,但這也用於將記錄標頭與記錄正文分開,並可能發生在HTML文檔中的任何位置。 WARC記錄的長度由記錄標題中的Content-Length
定義。
要使用PySpark處理常見爬網WARC文件,請參閱cc-pyspark。
相關問題
- 1. 兩個分隔符之間的字符
- 2. 更正文件中兩個分隔符之間的多個字符串
- 3. 替換|字符之間的記錄與管道分隔文件中的值
- 4. 在兩個並排的表格之間放置一個分隔符/分隔符
- 5. Javascript:如何替換兩個分隔符之間的文本?
- 6. 消除製表符分隔的txt文件中的兩個字段之間的製表符分隔
- 7. 兩個div之間的CSS分隔
- 8. 反覆提取文本文件兩個分隔符之間的線,巨蟒
- 9. 如何清除兩個外部分隔符之間的內部分隔符
- 10. 兩條記錄之間的時間間隔
- 11. 如何提取兩個分隔符之間的所有字符?
- 12. 記錄之間的平均間隔
- 13. TabWidget之間的分隔符
- 14. 分隔符之間的Grep?
- 15. 在兩個分隔符之間打印文本?
- 16. 使用Mercurial記錄兩個文件之間的代碼轉換
- 17. 使用Perl,如何從兩個可能的記錄分隔符的文件中讀取記錄?
- 18. 分隔每個grep發現記錄的分隔符
- 19. 提取兩個分隔符之間的數據
- 20. 兩個JSP分隔符之間的區別
- 21. 如何提取Perl中兩個行分隔符之間的行?
- 22. 在兩個分隔符之間提取數據的DB2查詢
- 23. 從SQL導出帶分隔符的文本文件,每個記錄有第二個分隔符
- 24. 兩個時間間隔之間的HQL
- 25. 如何更改文本文件中的記錄分隔符?
- 26. 在兩個分隔符之間刪除字符串
- 27. 刪除變量和分隔符之間的字符在文件
- 28. 從C文件中的分隔符之間獲取字符串#
- 29. 正確記錄jquery中兩個事件之間的時間
- 30. 如何在javascript中的兩個分隔符之間拆分字符串?
即使我解壓縮.gz文件,我沒有辦法分別獲取每個記錄。有沒有辦法? –
正如我剛剛提到的,*每個記錄由兩條換行符*分隔。如果你需要更多的幫助,那麼我需要更多關於你想要做什麼的信息。爲什麼你必須手動進行? –
謝謝。我必須創建該文件的rdd。 spark中的默認分隔符是不是warc所具有的。因此,我得到了比文件更多的記錄數。 –