2013-04-14 82 views
0

最近我得到了一些時間來學習數據可視化,作爲一種替代的用於Excel的圖表。我的選擇是R(與ggplot2),並開始學習它。編程語言來處理大量數據的R

在「一言以蔽之R」,約瑟夫·阿德勒端起:

通常情況下,我用如Perl工具來預處理大文件 之前使用它們R.

我建議使用Perl,Python或Ruby等腳本語言對 進行大量複雜的文本文件預處理並將它們轉換爲可消化的 表單。 (作爲一個方面說明,我通常寫出來的字段名的列表,並在Excel 的長度,然後用Excel公式創建R或Perl的 代碼加載它們。

的想法奠定了後面的是Unix哲學。--let每個工具做他的工作做好,讓他們從長遠來看,協同工作。因此,我打算學:

  • R代表visulization和
  • 另一種編程語言,用於在數據處理 未來

問題出現在哪個語言學習?

我沒有計算機科學的背景,同時Perl是對我來說太難了。我在網上做了一些搜索,發現Haskell和Clojure非常有趣。由於這裏有很多程序員+統計師,我想知道哪一個用作大數據處理目的與R一致?

尼克

+1

沒有CS背景haskell/closure將diffuclt到主。我推薦python。 – Nishanth

+1

這不是真正的這類問題的地方,因爲它有點開放。請閱讀[**這部分常見問題**](http://stackoverflow.com/faq#dontask)。你可以試試在[聊天室中提問]?(http://chat.stackoverflow.com/rooms/25312/r-public) –

+1

@ e4e5f4 Clojure在沒有CS背景的情況下很難掌握的想法很奇怪。除非您認爲非程序員使用冒號和尖刻的縮進規則比使用括號更容易,否則我沒有看到Python中沒有任何明顯的障礙。 – Chuck

回答

6

我真的不喜歡在工作流程中有太多的工具。如果我可以用R去掉,我更喜歡這個。你最終不得不手動運行一些串聯的工具,這使得更多的工作再次運行。或者你花時間連接不同的工具,這需要時間並引入自己的一系列問題。

對於編程新手,只要有R堅持還有一個好處:你花所有的時間學習一種語言,即防止被所有行業,但沒有大師的插孔。

我用幾種編程語言彼此相鄰(R,Python和IDL,Fortran語言),但對於數據處理我傾向於要堅持以純的R,如果我能幫助它。在這個空間選擇的

+0

謝謝Paul Hiemstra!你的意見真的很有意義,它使我放鬆了很多 - 它使我從學習R的同時又爲別的事情擔憂。 – Nick

+0

事實上,如果一項工作只能在R中完成,爲什麼還要幹其他事情呢?接口可能帶來錯誤,維護困難(例如升級後隱藏的操作變化)等成本。 R爲快速數據處理提供了許多不錯的選擇,一旦你熟悉矢量化操作並學會不使用循環。 'data.table'包值得研究。如果你絕對需要使用第二種語言,那麼確實要用Python。本書是一個很好的開始:http://shop.oreilly.com/product/0636920023784.do –

+0

個人而言,我使用Python進行工作流控制(啓動計算機模型(fortran),編輯參數文件等))。 –

0

我會去蟒,主要是因爲:

  1. 它更易於閱讀/理解
  2. R-python bridge,您可以非常容易地集成這兩種語言。
1

我個人的工具是Incanter

它結合了:由R

  • 使用Clojure的作爲通用編程語言在JVM上
  • 運行,可以訪問所有的Java庫的啓發

    • 統計/可視化功能:大如果您想與其他系統集成或直接在生產中使用,則可獲得額外獎勵。

    總體而言,從純粹的統計角度來看,它還不像R那麼複雜,但恕我直言Clojure是一個更好,更能幹的通用語言。因此,如果要使用數據構建生產應用程序,整個軟件包會更有用。