我已經從常見抓取下載了warc.gz
文件,我必須使用spark來處理它。如何將文件轉換爲RDD? sc.textFile("filepath")
似乎沒有幫助。 當rdd.take(1)
被打印時,它給了我[u'WARC/1.0']
,而它應該給我一個完整的記錄。我如何將文件轉換爲可處理的rdd?謝謝!將從常見抓取下載的warc.gz文件轉換爲RDD
0
A
回答
0
由於RDD支持非結構化數據,因此您會這樣做。如果你將一個文件作爲RDD讀取,則warc結構消失。因此,當你做rdd.take(1)時,其實質上意味着RDD的第一行。因此,結果[u'WARC/1.0']。如果你想處理warc記錄。我不會推薦使用spark,因爲還有對Warc文件的支持。使用python warc庫應該可以幫你解決這個問題,因爲它會保留你豐富的WARC數據的結構。
+0
未實施? Theres Hadoop inputformat已經可用... https://github.com/Smerity/cc-warc-examples/tree/master/src/org/commoncrawl/warc –
相關問題
- 1. 從WARC.gz文件中提取頭文件
- 2. 抓取:從網址下載文件
- 3. 將Rdd [矢量]轉換爲Rdd [雙]
- 4. 將RDD [org.apache.spark.sql.Row]轉換爲RDD [org.apache.spark.mllib.linalg.Vector]
- 5. 將RDD [CassandraRow]轉換爲RDD [String]
- 6. 如何將選項[RDD]轉換爲RDD
- 7. 將RDD [Array [Row]]轉換爲RDD [Row]
- 8. Pyspark:將RDD轉換爲RowMatrix
- 9. 將RDD轉換爲DataFrame
- 10. 將iterable轉換爲RDD
- 11. 從URL下載一個文件,並將其轉換爲NSString的
- 12. 使用下載文件從服務器抓取文件的Webclient - 處理異常
- 13. 抓文件下載?
- 14. C#從Dropbox下載文件並將其轉換爲HttpPostedFile
- 15. 如何使用sql上下文將數據框轉換爲RDD
- 16. 如何下載並將.data文件轉換爲.csv文件?
- 17. PySpark:將一對RDD轉換回常規RDD
- 18. 將生成的Rdd轉換爲HashMap
- 19. 如何將JSON的RDD轉換爲Dataframe?
- 20. Spark:scala - 如何將RDD的集合轉換爲另一個RDD
- 21. 轉換字符串RDD爲Int RDD
- 22. 將base64轉換爲MVC中的可下載zip文件c#
- 23. 將python腳本轉換爲ruby(下載文件的一部分)
- 24. 將JDBC ResultSet轉換爲Spark RDD/DataFrame
- 25. 將RDD轉換爲可迭代:PySpark?
- 26. 將RDD [Long,String,Long]轉換爲sql.DataFrame
- 27. 將Rdd轉換爲數據幀
- 28. 將Json對象序列轉換爲Rdd
- 29. 將類對象轉換爲Java RDD
- 30. 如何將RDD [List [Int]]轉換爲DataFrame?
請參閱https://github.com/commoncrawl/cc-pyspark? –