0
現在我正在使用Datastax Cassandra Spark連接器將Cassandra羣集中的表加載到Spark羣集中。現在,spark程序執行一個簡單的mapreduce作業來計算Cassandra表中的行數。一切都在本地設置和運行。使用Spark和Cassandra進行文件處理
Spark程序適用於只有String鍵作爲其唯一列的小型Cassandra表。當我們加載另一個具有列String id的表和一個由文件數據組成的blob時,我們會得到幾個錯誤(spark工作者的期望超時錯誤,驅動程序的stdout中的java超出內存異常)。
我的問題是Spark是否可以從Cassandra加載包含大約1MB blob的元素,並對它們執行mapreduce作業,或者如果在使用Spark mapreduce作業處理元素之前應將元素分割成更小的塊。