0
背景:我從varius日誌文件和Cassandra表中獲取信息。日誌文件很好,但是從表中讀取給我彈性搜索內的重複項,因爲我無法獲得自sql_last_run以來添加的行。 如何避免重複行?避免從Cassandra中抽取數據中的重複數據。
背景:我從varius日誌文件和Cassandra表中獲取信息。日誌文件很好,但是從表中讀取給我彈性搜索內的重複項,因爲我無法獲得自sql_last_run以來添加的行。 如何避免重複行?避免從Cassandra中抽取數據中的重複數據。
避免這種情況的一種方法是通過計算原始日誌行的SHA或MD5來創建自己的文檔ID。
即使重複讀取,同樣的日誌行也會一直生成相同的ID,並且不會再有任何重複的文檔。
另一種解決方案是使用唯一GUID在表中創建另一列,並將該值用作文檔ID。
我有幾種文檔類型,但只能爲其中的一種做到這一點。 是否可以將自定義的document_id應用於該特定類型,同時保留其他默認類型? – adobe7guy
我想,這取決於你的加載流水線的樣子。你使用哪種工具?看起來你正在使用ES JDBC加載器,對吧? – Val
正在使用JDBC logstash輸入插件。在logstash輸出配置中使用該cassandra類型的if case,並在其中添加document_id。 解決了這個問題。謝謝! – adobe7guy