2017-08-08 98 views
0

我是一名商業智能分析師,開始使用python進行數據分析。如何將python數據分析代碼分解爲模塊?

我正處於爲內部使用(營銷分析師)編碼營銷分析應用程序的初期階段,無需使用MS Excel進行計算。

的主要目標是:

  1. 提示,要求選擇原始文件

  2. 讀CSV/XLSX數據

  3. 清理(刪除空值,下降總行,格式化數字和日期等)

  4. 轉換(創建像每點擊成本等指標 impressi插件,每引線,廣告支出的回報,像 Facebook的每個頻道,YouTube,谷歌搜索等)

  5. 分析(高亮由通道最好和最差的表演,目標,網址等 型)負載(打印屏幕和一個XLSX 寫入文件)

現在我已經打破了這個項目分成兩個文件:main.py(主要功能和打印)和data_prep.py(與數據清理和轉換相關的功能)。

我相信必須有一個框架或某種邏輯和有組織的方式打破文件的模型,我想在早期階段將其應用於避免返工和構建更可靠和易於維護的應用程序。

PS:在這個線程中,我關心的是文件/目錄結構,而不是我需要使用的庫。

+0

您可能想要查看http://pandas.pydata.org/ – dashiell

+0

您是否在嘗試爲編號1構建基於Web的UI?如果是這樣,您需要在前端處理上傳。對於數字2和3,您可以使用以下庫:csv(附帶python),xlrd(用於讀取可能有格式的excel文件)和pandas(對大部分任務有幫助)。對於數字3-5,熊貓可能是最有用的圖書館。你可以在這裏閱讀更多關於它的信息:http://pandas.pydata.org/ –

+0

我覺得我在這裏錯過了你的問題。 – SandPiper

回答

0

只要文件位置一致(共享文件夾,羣集文件夾,Web服務API派生位置),我不認爲有一種「最佳」方式來組織您的文件或目錄。在你的標籤中要清楚,你應該能夠把所有的數據放在一起。像這樣的文件結構:

/Marketing/Analysis/dev/ 
    ./source <- for csv files to be kept 
    ./prog <- for your .py files (actual code) 
    ./result <- output from your process 
    ./notes <- for anything non-functional (ie, release notes or project requests) 

你有代碼存儲或bitbucket回購嗎?如果是這樣,請使用該功能,並只保存當前代碼./prog。

如果您正在使用GoogleAnalytics,您可能想嘗試直接從Python進行API調用,而不是將csv文件下載到./source。它只會減少一個變量的數量。

+0

非常感謝!我正在使用bitbucket。 –