Cassandra將其分區作爲多行顯示,但內部存儲爲寬行,這就是我想用Spark處理數據的方式。如何讓Cassandra分區在Spark中感覺像一個寬行?
更具體一點,我會以某種方式獲得Cassandra分區的RDD或這些分區的數據框。
然後,我願做一個map
操作,並且在關閉,我想表達的是這樣的:
row['parameter1']['value']/len(row['parameter2']['vector_value'])
僞代碼只是爲了讓一個想法,一個簡單的除法,並採取lenght的矢量。
我的表是
create table(
dataset_name text,
parameter text,
value real,
vector_value list<real>,
primary key(dataset_name, parameter));
我怎麼能這樣做efficiencly?與PySpark一起使用。
我想我需要類似Pandas set_index
。