2017-08-23 68 views
0

我已經從常見抓取下載了warc.gz文件,我必須使用spark來處理它。如何將文件轉換爲RDD? sc.textFile("filepath")似乎沒有幫助。 當rdd.take(1)被打印時,它給了我[u'WARC/1.0'],而它應該給我一個完整的記錄。我如何將文件轉換爲可處理的rdd?謝謝!將從常見抓取下載的warc.gz文件轉換爲RDD

+0

請參閱https://github.com/commoncrawl/cc-pyspark? –

回答

0

由於RDD支持非結構化數據,因此您會這樣做。如果你將一個文件作爲RDD讀取,則warc結構消失。因此,當你做rdd.take(1)時,其實質上意味着RDD的第一行。因此,結果[u'WARC/1.0']。如果你想處理warc記錄。我不會推薦使用spark,因爲還有對Warc文件的支持。使用python warc庫應該可以幫你解決這個問題,因爲它會保留你豐富的WARC數據的結構。

+0

未實施? Theres Hadoop inputformat已經可用... https://github.com/Smerity/cc-warc-examples/tree/master/src/org/commoncrawl/warc –