1
我有一個大的數據集爲CSV(334MB),它看起來像下面。最佳算法來比較龐大的數據
month, output
1,"['23482394','4358309','098903284'....(total 2.5 million entries)]"
2,"['92438545','23482394',323103404'....(total 2.2 million entries)]"
3,"[...continue
現在,我需要比較多少百分比在一個月的輸出與一個在上月的重疊。
例如,當我比較1月份和2月份,我想獲得類似結果「月2輸出具有對MONTH1 90%重疊」,然後選擇「Month3具有抗MONTH2 88%overap」
Python3解決這個問題的最好方法是什麼?
是在價值觀?獨特的,總是整數 –
334 MB是要融入你的普通計算機的RAM,所以一定要確保不overengineer這一次每個特定的月份,請確定這種重疊:這些總是整數請問「0」前綴事?他們是獨一無二的?是相關的順序?請添加一些代碼來告訴你如何會在python比較兩個短,簡單的例子字符串,這會讓事情變得更加簡單。每個月 – reto
@IvanSivak值都是獨一無二的他們總是整數。 –