我試圖找到兩個非常大的csv文件 電話號碼(一個有600k行,另一個有300mil)的intesect子集。我目前使用熊貓來打開這兩個文件,然後將所需的列轉換爲1d numpy數組,然後使用numpy相交來獲得相交。有沒有更好的方法來做到這一點,無論是使用Python或任何其他方法。感謝您的幫助在python(numpy)中比較兩個巨大的csv文件的最快方法
import pandas as pd
import numpy as np
df_dnc = pd.read_csv('dncTest.csv', names = ['phone'])
df_test = pd.read_csv('phoneTest.csv', names = ['phone'])
dnc_phone = df_dnc['phone']
test_phone = df_test['phone']
np.intersect1d(dnc_phone, test_phone)
您的CSV文件在結構上是否相同? (即你在尋找相同的行還是相同的CSV字段)? – zwer
每一步目前需要多少時間?哪一步是瓶頸?目前的總運行時間是多少?您的目標總運行時間是多少?順便說一句,你可以設置'squeeze = True'來直接獲得一個Series,並跳過'dnc_phone = df_dnc ['phone']'部分。 –
@ zwer,是的,有相同的結構和比較相同的csv領域。這是電話號碼 – TimCodes