2016-10-19 28 views
0

我有行的表,我被賦予的任務是做一些簡單分析就像尋找字段中的模式,哪些字段是互斥等轉儲數據庫表或遠程工作以進行分析?

我最初的反應是整個錶轉儲到一個CSV,所以我可以與熊貓或類似的工作,因爲我認爲它會更快,更容易合作。在找出如何將整個表格轉換爲CSV的方法的同時,一位同事堅持認爲這是過度的,傳統的方法是直接與Oracle數據庫合作。

從我的軟件背景來看,我的理解是數據庫更適合於保持大型應用程序的狀態,對於人類來說則更少。有這麼大的表格時,分析的通用方法是什麼?什麼更快?就我個人而言,我不介意轉儲數據庫所需的時間,但更多的是在進行實際分析時獲取反饋的時間。

回答

0

當你已經知道你在找什麼時,直接用SQL對數據庫進行任何分析都是完全正常的

當您不知道自己在找什麼,並且想要做例如模式識別,在另一個工具中轉儲和處理的努力可能是值得的。

還考慮將Pandas直接連接到Oracle數據庫(允許您跳過轉儲數據)的可能性,see here for an example