我正在從兩個需要加入的不同數據庫中下載兩個數據集。當我將它們存儲爲CSV時,它們各自分別大約爲500MB。另外適合內存,但是當我加載我有時會得到一個內存錯誤。當我嘗試將它們與熊貓合併時,我肯定會陷入麻煩。在熊貓中加入兩個大型數據集的最佳方法
對它們進行外連接的最佳方法是什麼,以便我不會出現內存錯誤?我手邊沒有任何數據庫服務器,但如果有幫助,我可以在我的計算機上安裝任何類型的開源軟件。理想情況下,我仍然只想用熊貓解決它,但不知道這是否可能。
澄清:合併我的意思是一個外連接。每個表格有兩行:產品和版本。我想檢查哪些產品和版本只在左側表格中,僅在右側表格和兩個表格中。我用
pd.merge(df1,df2,left_on=['product','version'],right_on=['product','version'], how='outer')
什麼操作系統你在跑嗎? – user2027202827
請更詳細地說明你期望這個程序做什麼,以及這個連接應該在哪些領域工作。在最好的情況下,您可以將兩個CSV文件合併(逐行)。此外,如果您可以發佈導致內存錯誤的代碼,這將有很大幫助。 –
我對原始問題添加了更多詳細信息 – Nickpick