我得到csv文件,讀取這些文件並將它們寫入到Cassandra。我這樣做是爲了獲得大量數據(每天大約1000萬行)文件本身相當小(從100行到1000行)檢查數據是否已經存在很多數據
我想要做的是在將數據寫入數據庫之前進行檢查,如果主數據庫我即將插入的鍵已經存在。
我知道我可以用Select count(*) from table where primary key1 = something and key2 is something else
來完成。
但是這很慢,我想檢查一個完整的文件,如果它將影響已經在Cassandra中的數據,並且我想(需要)快速。 有沒有辦法實現我想要的? (或類似的東西,比如每批檢查是否會影響行)
你能張貼你的表架構?具體哪個鍵是一個分區,哪一個是聚類(如果有的話)? – yurgis