1

想象一下,您正在處理大量數據集,並將其分發到一堆CSV文件中。您打開一個IPython筆記本並瀏覽內容,進行一些轉換,重新排序和清理數據。如何在使用IPython筆記本時管理複雜性?

然後你開始做一些數據實驗,創建更多的筆記本,並最終發現自己堆滿了一堆不同的筆記本,這些筆記本中埋有數據轉換管道。

如何以這樣的方式組織數據探索/變換/學習 - 從 - 它的過程,即:

  • 複雜性不吹,逐步提高;
  • 保持您的代碼庫可管理和可導航;
  • 能夠重現和調整數據轉換管道嗎?

回答

1

那麼,我現在有這個問題,然後在處理大量數據時。複雜性是我學會生活的東西,有時很難讓事情變得簡單。

什麼,我認爲幫助的我很多是把所有的Git倉庫,如果管理得好,並與寫得很好的消息,你可以輕鬆地跟蹤改造您的數據頻繁的提交。

每次我做一些測試,我創建一個新的分支並做我的工作。如果它無處不在,我只能回到我的主分支並繼續工作,但如果需要,我所做的工作仍可供參考。

如果它導致一些有用的東西,我只是將它合併到我的主分支,並繼續工作新的測試,根據需要製作新的分支。

我不認爲它會回答你所有的問題,也不知道你是否已經在你的筆記本中使用了某種版本控制,但是這對我有很大的幫助,當我使用jupyter -notebooks。