我使用R進行數據分析,對此非常滿意。然而,清潔數據可能會更容易一些。我正在考慮學習適合這項任務的另一種語言。具體來說,我正在尋找一種工具來獲取原始數據,刪除不必要的變量或觀察值,並對其進行格式化以便於在R中加載。內容將主要是數字和字符串數據,而不是多行文本。Python或awk/sed清理數據
我正在考慮awk/sed組合與Python。 (我認識到Perl會是另一種選擇,但是如果我要學習另一種完整語言,Python似乎是一個更好,更具擴展性的選擇。)
sed/awk的優點是它會更快學習。缺點是這種組合不如Python可擴展。事實上,如果我學會了Python,我可能會想象一些「任務蠕變」,這可能很好,但不是我的目標。
我的另一個考慮是對大數據集的應用程序。據我瞭解,awk/sed一行一行地操作,而Python通常會將所有數據拉入內存。這可能是sed/awk的另一個優勢。
我還有其他問題嗎?任何建議,你可以提供將不勝感激。 (包括我的R用戶提供他們清洗的建議R標誌。)
通過「清理」,你是指裁剪異常值或恢復一致性或其他任何東西?通過「數據」,你的意思主要是數字或字符串,或只是文本?對我來說,這個當前問題的目標太籠統了。 – nye17
@ nye17,抱歉的歧義。我增加了一些細節。 – Charlie
我主要是爲自己使用python,但如果它純粹是基於文本的數據集的操縱,作爲R的數據接口,我強烈建議perl,因爲它具有強大的正則表達式和處理文本的靈活性。 – nye17