我有一個exec,它接受一個cassandra主鍵作爲輸入。使用Spark + Cassandra利用數據局部性執行作業
Cassandra Row: (id, date), clustering_key, data
./exec id date
每個exec可以訪問給定主鍵的多個行。在對數據執行執行之後,它將結果存儲在數據庫中。
我有多個這樣的execs,我想在一個存儲數據的節點上運行exec。我如何使用spark來實現這一點?
另外,如何接收exec已運行的節點ip [用於驗證目的]。
注:在EXEC我被執行的查詢訪問數據:
select data from table where id = t_id and date = t_date and clustering_key = t_clustering_key