2015-06-19 42 views
0

現在我正在使用Datastax Cassandra Spark連接器將Cassandra羣集中的表加載到Spark羣集中。現在,spark程序執行一個簡單的mapreduce作業來計算Cassandra表中的行數。一切都在本地設置和運行。使用Spark和Cassandra進行文件處理

Spark程序適用於只有String鍵作爲其唯一列的小型Cassandra表。當我們加載另一個具有列String id的表和一個由文件數據組成的blob時,我們會得到幾個錯誤(spark工作者的期望超時錯誤,驅動程序的stdout中的java超出內存異常)。

我的問題是Spark是否可以從Cassandra加載包含大約1MB blob的元素,並對它們執行mapreduce作業,或者如果在使用Spark mapreduce作業處理元素之前應將元素分割成更小的塊。

回答

0

最初我使用'sbt run'來啓動應用程序。

一旦我能夠使用spark-submit來啓動應用程序,一切正常。所以是的,10 MB以下的文件可以存儲爲blob類型的列。 Spark MapReduce以200行快速運行。