使用Spark和Cassandra進行文件處理

現在我正在使用Datastax Cassandra Spark連接器將Cassandra羣集中的表加載到Spark羣集中。現在，spark程序執行一個簡單的mapreduce作業來計算Cassandra表中的行數。一切都在本地設置和運行。使用Spark和Cassandra進行文件處理

Spark程序適用於只有String鍵作爲其唯一列的小型Cassandra表。當我們加載另一個具有列String id的表和一個由文件數據組成的blob時，我們會得到幾個錯誤（spark工作者的期望超時錯誤，驅動程序的stdout中的java超出內存異常）。

我的問題是Spark是否可以從Cassandra加載包含大約1MB blob的元素，並對它們執行mapreduce作業，或者如果在使用Spark mapreduce作業處理元素之前應將元素分割成更小的塊。

2015-06-19 Rdesmond

最初我使用'sbt run'來啓動應用程序。

一旦我能夠使用spark-submit來啓動應用程序，一切正常。所以是的，10 MB以下的文件可以存儲爲blob類型的列。 Spark MapReduce以200行快速運行。

2015-06-23 00:51:01 Rdesmond

回答