2015-10-19 33 views
0

熊貓新手& SQL。沒有找到特定於此配置的答案,並且不確定在將大熊貓引入混音時是否適用標準SQL智慧。連接到SQL DB的多個大熊貓用戶

做一個學校項目,涉及~6GB的.csv塊大約300 gb的數據。

學校建議通過dropbox同步數據,但這對於一個4人團隊來說似乎不切實際。

因此,目前的解決方案是AWS EC2 & RDS實例(MySQL,我認爲它會是1張表)。

我想要的東西,以確認我們開始之前將其設置:

如果多個用戶正在使用(偶爾修改)的數據,可以在此安排管理衝突?例如,如果用戶A使用熊貓來從查詢構造數據框,那麼如果用戶B嘗試使用它們,該查詢中的記錄是否被凍結?

我的假設是,框架中的數據在內存中,並且SQL數據庫中的記錄可以被其他人修改,直到數據框被寫回到數據庫,但是我希望,米錯誤或有一個簡單的解決方案在這裏(如每個用戶或一些隨機的樣本查詢)。

+0

http://stackoverflow.com/questions/19849551/compute-on-pandas-dataframe-同時看到這個如果有幫助 – lsbbo

回答

0

A pandas DataFrame對象不直接與數據庫進行交互。一旦你讀了它,它就會在本地存儲。您將不得不使用類似DataFrame.to_sql的方法將更改寫回MySQL DB。有關讀取和寫入SQL表的更多信息,請參閱pandas文檔here

+0

知道了 - 所以它遵循用戶不協調他們的變化可能會覆蓋另一個。在這種情況下,請確定並採取適當的謹慎措施。 – Brandon