將從常見抓取下載的warc.gz文件轉換爲RDD

我已經從常見抓取下載了warc.gz文件，我必須使用spark來處理它。如何將文件轉換爲RDD？ sc.textFile("filepath")似乎沒有幫助。當rdd.take(1)被打印時，它給了我[u'WARC/1.0']，而它應該給我一個完整的記錄。我如何將文件轉換爲可處理的rdd？謝謝！將從常見抓取下載的warc.gz文件轉換爲RDD

來源

2017-08-23 Ravi Ranjan

請參閱https://github.com/commoncrawl/cc-pyspark？ –

由於RDD支持非結構化數據，因此您會這樣做。如果你將一個文件作爲RDD讀取，則warc結構消失。因此，當你做rdd.take（1）時，其實質上意味着RDD的第一行。因此，結果[u'WARC/1.0']。如果你想處理warc記錄。我不會推薦使用spark，因爲還有對Warc文件的支持。使用python warc庫應該可以幫你解決這個問題，因爲它會保留你豐富的WARC數據的結構。

來源

2017-08-24 00:35:40

未實施？ Theres Hadoop inputformat已經可用... https://github.com/Smerity/cc-warc-examples/tree/master/src/org/commoncrawl/warc –

將從常見抓取下載的warc.gz文件轉換爲RDD

回答

相關問題