避免從Cassandra中抽取數據中的重複數據。

背景：我從varius日誌文件和Cassandra表中獲取信息。日誌文件很好，但是從表中讀取給我彈性搜索內的重複項，因爲我無法獲得自sql_last_run以來添加的行。如何避免重複行？避免從Cassandra中抽取數據中的重複數據。

2016-02-29 adobe7guy

避免這種情況的一種方法是通過計算原始日誌行的SHA或MD5來創建自己的文檔ID。

即使重複讀取，同樣的日誌行也會一直生成相同的ID，並且不會再有任何重複的文檔。

另一種解決方案是使用唯一GUID在表中創建另一列，並將該值用作文檔ID。

2016-02-29 09:10:47 Val

我有幾種文檔類型，但只能爲其中的一種做到這一點。是否可以將自定義的document_id應用於該特定類型，同時保留其他默認類型？ – adobe7guy

我想，這取決於你的加載流水線的樣子。你使用哪種工具？看起來你正在使用ES JDBC加載器，對吧？ – Val

正在使用JDBC logstash輸入插件。在logstash輸出配置中使用該cassandra類型的if case，並在其中添加document_id。解決了這個問題。謝謝！ – adobe7guy

回答