我記得有過R用戶寫過他們使用「修訂控制」(e.g: "Source control"),我很想知道:您如何將「修訂控制」與統計分析工作流結合起來?R如何將「修訂控制」與「工作流程」結合起來使用?
兩個(非常)有趣的討論討論如何處理工作流程。但無論他們的參考版本控制元素:
長期更新的問題:按照一些人的答案,和德克的問題在評論,我想多指導一下我的問題。
唸叨「revision control」維基文章(我以前不熟悉)之後,很明顯,我認爲使用版本控制時,什麼人做的是打造自己的代碼發展結構。這種結構要麼導致「最終產品」,要麼導致多個分支。
當我們建立一個類似網站的時候,通常有一個最終產品正在朝着(網站)方向努力,同時還有一些原型。
但是當做統計分析時,工作(在我看來)是不同的。有時你知道你想去的地方。但更多的時候,你會探索。探索清潔數據集。探索不同的統計分析方法,並詢問你的數據的各種問題(我正在寫這篇文章,瞭解Frank Harrell和其他經驗統計學家對Data dredging的看法)。
這就是爲什麼與統計編程的工作流程問題是(在我看來)一個嚴肅而深刻的問題,提出許多問題,越簡單的有技術:
- 版本控制軟件你使用哪種(和爲什麼)?
- 您使用哪個IDE(以及爲什麼)? 更有趣的問題是關於工作過程:
- 你如何構建你的文件?
- 你作爲一個單獨的文件保存什麼和作爲修訂?或以不同的方式詢問 - 什麼應該是「分支」,代碼中應該是什麼「子項目」?例如:當開始探索你的數據時,是否應該創建一個情節,然後抹去,因爲它沒有引導任何地方(但保留爲修訂版)或者應該有該路徑的備份文件?
如何你解決這個緊張是我最初的好奇心。第二個問題是「我可能會錯過什麼?」。應該遵循哪些規則(拇指)以避免使用版本控制進行統計編程的常見缺陷?我認爲統計編程與軟件開發(我在編寫這個時不需要真正的統計編程專家,甚至在軟件開發中更少)編寫本質上不同。這就是我不確定我在這裏閱讀的關於版本控制的哪些教訓是適用的。
非常感謝, 塔爾
問題是什麼?當您在工作流程中擁有新版本的文件時,您將其提交。版本控制允許您分支,恢復,但所有這些都與工作流問題有些正交。所以請解釋你想要回答的問題。 – 2010-02-18 14:33:28
還有一點:如果有的話,那麼這關係到你之前關於編輯/ ide建議的問題。是的,Emacs也確實進行了版本控制集成,因爲'M-x svn-status'規則我的世界:) – 2010-02-18 15:13:26
嗨Dirk, 我擴展了我的問題,希望更清楚。 感謝您分享如此多的時間和經驗。 乾杯, Tal – 2010-02-18 21:27:57