我有在這種結構約600暢想行數據36GB大文件:如何過濾和排序幾GB的數據?
LogID,SensorID,ValueNumeric,ValueString,DateAdded,VariableName,Name
1215220724,1182,1,0000,,2016-01-04 12:56:57.7770000,Scan_Frequency,MIC_2
我只是日期,值,變量名和流(名稱)感興趣。問題是有很多重複的信息,並且數據不是按日期排序的。
我目前的解決方案是,我先倒數第100.000行,讀取變量的名稱(其中833個),然後在數據庫中爲每個變量創建一個表。對於主鍵我使用日期(我已經截斷秒和毫秒),所以我DB將從重複。我知道這不是最好的主鍵字符串。
然後我再次讀取文件並在表格中輸入該數據,但速度很慢。我的估計是,我最終應該至少減少10倍的行數。
有沒有人有更好的主意,如何閱讀這樣一個大文件,並按日期排序並刪除重複項。保存數據每隔5分鐘就足夠了。
這是什麼標記與德比?你不能使用它嗎? –
每個樣本833個變量? – chrylis
我們沒有足夠的能力回答這個問題。我們對數據,最終目標或嘗試解決方案一無所知。因此,我們在這裏建議的任何事情只會是猜測,並不一定對您的需求有所幫助。 –