從多種來源爲機器學習目的存儲數據的最佳實踐

目前，我正在從多個來源提取數據並調查不同的機器學習方法，以使用這些數據集來訓練模型。展望未來，我想提出最佳的數據存儲計劃。從多種來源爲機器學習目的存儲數據的最佳實踐

目前，我正在使用普通的舊CSV。然而，我爲什麼會被切換的動機之一是因爲數據集中的相關字段都存在於同一個對象中。例如，如果我們正在存儲有關多個餐廳的數據，我將爲餐廳編號併爲其提供多個字段。更具體地說，我將在頭部有一個與之相關的字段，即restaurant_1_name,restaurant_1_location,restaurant_2_name,restaurant_2_location ...等等。此外，在特定情況下，某些數據點的餐館數量可能會變化，因此我必須爲CSV中的許多潛在字段創建空條目。此外，爲了增加這種可變性，來自不同來源的數據將具有附加字段和缺失字段。

由於我們數據的面向對象的性質，我認爲考慮另一種形式的數據存儲可能會更好。作爲JSON的初始解決方案，它允許將可變數量的屬性和對象分組爲字典列表。作爲獎勵，它與Python字典和熊貓模塊，我使用的語言/模塊（大多數數據格式也是如此）是相當兼容的形式。

基於這些數據的性質，選擇CSV，JSON，NoSQL（即Mongo），SQL（即Postgres，MySQL）等選項中最可行的數據方法的最佳實踐和方法是什麼？請注意數據來源/要點之間的可變性以及數據的客觀性質？此外，是否值得將數據整合成一種格式，或者將其與數據源分開保存？

來源

2017-06-21 somil

我會建議與mongo一起使用，因爲它足夠靈活，它允許您存儲非結構化數據，查詢起來會更容易。 IMO

來源

2017-06-21 15:16:00

從多種來源爲機器學習目的存儲數據的最佳實踐

回答

相關問題