cassandra - 高併發讀寫應用程序問題

我正在實現一個應用程序，它在4個線程中生成數十萬行。每個線程打開與cassandra的單獨連接。cassandra - 高併發讀寫應用程序問題

表中的每一項都有一個唯一的散列標識符（String），但主鍵是一個uuid。

持續的項目的過程如下：

1）被創建的項目和其散列計算。 2）然後在第二個表中執行散列查找，該表將散列值與項目的uuids對應。 3）如果找到了一個hash-uuid對，那麼將會執行對uuid項的查找（第1個表再次），並且由於該項必須存在（因爲找到了「hash-uuid」對），所以該項目被加載從cassandra到JPA，並在之後進行更新。如果找不到「hash-uuid」對，則會在相應的表中創建一個新項目，並保存一個新的「hash-uuid」對。

數據生成有兩個步驟。第一步是使用空表運行並生成第一個數據集。沒有錯誤發生，因爲在步驟nr。 3，從來沒有找到「hash-uuid」對，所以沒有更新發生。

第二步，整個算法再次運行，但已經在填充的數據表上。在這個步驟中，在讀取相應數據項時會出現隨機錯誤（主鍵） - 有時服務器不會重新輸入完整的文本數據（正確的JSON字符串存儲在表中，但是不完整的JSON字符串會被檢索到應用程序中）。

我完全相信，我的算法是正確的，因爲同樣的算法與hibernate和mysql一起工作，即使使用postgresql（但因爲我需要更快的寫入，我正在玩cassandra）。

我正在使用16 GB RAM的macbook pro，用於cassandra的工作我使用Kundera庫（支持JPA）。至於cassandra，我已經試過了datastax 2.0.4版本，並且還直接從Apache站點下載了2.0.7版本。沒有羣集，我的機器上只有一個實例在本地運行在外部SSD驅動器上。昆德拉正在使用CQL v3。

有沒有人有一個想法，這種行爲可能會發生？ datastax cassandra驅動程序或Kundera中是否存在錯誤？或者我使用cassandra錯誤，數據庫不應該以這種方式使用？或者有沒有我可能已經忘記的配置調整？

我已經卡桑德拉配置文件中唯一改變的是所有的超時，因爲我正在使用缺省值太多TimeoutExceptions（在主鍵查詢超時發生）

來源

2014-05-05 rastusik

如果有人會感興趣，下面是關於這個問題的更詳細的描述：https://github.com/impetus-opensource/Kundera/issues/587 – rastusik

我懷疑你的代碼是不是以線程安全的方式使用Cassandra連接：必須注意一次只允許一個線程訪問連接。我不知道昆德拉如何解決這個問題，因爲JPA會爲Cassandra生成令人難以置信的低效查詢，我不推薦它。請參閱data modeling resources here，並使用native CQL java driver。

來源

2014-05-07 14:51:48 jbellis

感謝您的答案，這正是我懷疑。查詢生成沒有問題，因爲即使使用JPA，查詢也只是基本的主鍵查找。我懷疑問題出在昆德拉身上，我只是要求確定，我沒有進行任何數據操作，而這些數據操作不應該由卡桑德拉以我正在處理的方式處理。 – rastusik

cassandra - 高併發讀寫應用程序問題

回答

相關問題