我想要分析ML的目的,我在csv中有大量值大約50GB的數據。然而,要適應Python,這是一個很大的方法。我最好希望使用mySQL,因爲查詢更容易。任何人都可以提供一些技巧供我研究。這一點可以從任何東西:存儲和查詢大量數據
如何將其存儲在首位,我知道我可能無法一次全部加載它,我會做反覆?如果是的話,我可以爲此考慮些什麼?另外我聽說過索引,這是否真的會加快對如此龐大數據集的查詢?
是否有更好的技術來處理這些數據,並且仍然能夠快速查詢和執行特徵工程。我最終提供給我的算法應該可以在Python中完成,但是我需要查詢並做一些特徵工程,然後才能獲得可供分析的數據集。
我真的很感激任何意見,這一切都需要在個人電腦上完成!謝謝!!
使用Talend Open Studio - 非常適合這種類型的任務imo –
什麼是「ML」?例如,任何數據庫都可以在zillion-row表中彙總一列。但是如果「分析」過於複雜,那麼這是不可行的。 –