我遇到以下問題。 我使用和API連接到某個地方,並獲取數據作爲輸入流。 的目標是在刪除重複行後保存數據。 第10,15,22列定義的重複。在大型數據庫中刪除java中的重複項
我使用多個線程獲取數據。 目前我首先將數據保存到csv文件中,然後刪除重複項。 我想在閱讀數據時做到這一點。 數據量約爲1000萬條記錄。 我有限的內存,我可以使用。該機器有32GB的內存,但我有限,因爲有其他應用程序使用它。
我在這裏讀到了關於使用哈希映射。 但我不確定我有足夠的內存來使用它。
有沒有人有建議如何解決這個問題?
您是否有API的輸出示例?是由三列(10,15,22)的組合定義的重複,還是每一列都必須是唯一的,而不涉及其他列? –
api的輸出是類似於這樣的字符串: =「banna」,=「orange」,=「apple」...等約30個元素。 這些列的組合是關鍵。 – mikeP