2017-05-04 108 views
0

我完全不熟悉數據分析,我需要一些建議來啓動一個新項目。 我有許多來自不同外圍設備的日誌文件,它們是自動付款機器的一部分。日誌文件每天都會生成,每個文件的長度在10k到100k之間。此外,日誌文件具有或多或少相同的結構(時間戳,類別,ProcID,ThreadID,方法,消息)。
我需要做的是:日誌分析和數據彙總

  1. 應用一些查詢到每一個文件提取有關從日誌不同外設的每個外部
  2. 彙總信息來重建信息的交易流程

哪些完成這項任務的最佳技術/框架?
我剛開始使用Apache Lucene進行日誌解析,但我會很欣賞任何形式的建議。
目前我對編程語言沒有任何限制,但最好是Java,C#或Python。

謝謝!

回答

1

這是一個數據庫方法。你需要熟悉SQL。

  1. 使用python腳本將需要的信息提取到可導入數據庫的格式中。
  2. 將其導出到數據庫(例如PostgreSQL或Apache SPARK),每個外圍設備都是一個表。當然,如果需要匹配的外設數量很多,您需要通過將一對一匹配的外設條目放入一張表中來優化表格。
  3. 然後執行JOIN操作以匹配相應的外圍設備。
  4. 基於匹配的外設信息撰寫/重建交易流程。

該方法的優點是易於擴展。另外,大多數數據科學工具都支持數據庫因此,您可以使用各種工具來檢查/可視化您的數據。它還爲您設置了更多可能需要的複雜操作。

+0

感謝您的回覆,我會研究你的建議 –