-1
我有json格式的大數據集,我想從中提取重要的屬性,它能捕捉最多的方差。我想提取這些屬性來在數據集上構建一個搜索引擎,這些屬性是散列鍵。我們如何在json數據上做特徵選擇?
這裏要問的主要問題是在json數據上做功能選擇。
我有json格式的大數據集,我想從中提取重要的屬性,它能捕捉最多的方差。我想提取這些屬性來在數據集上構建一個搜索引擎,這些屬性是散列鍵。我們如何在json數據上做特徵選擇?
這裏要問的主要問題是在json數據上做功能選擇。
您可以使用pandas.read_json()函數將數據讀入一個pandas DataFrame對象。您可以使用此DataFrame對象來深入瞭解您的數據。例如:
data = pandas.load_json(json_file)
data.head() # Displays the top five rows
data.info() # Displays description of the data
或者你可以在這個數據幀使用matplotlib繪製直方圖每個數值屬性
import matplotlib.pyplot as plt
data.hist(bins=50, figsize=(20,15))
如果您有興趣到屬性的相關性,你可以使用pandas.scatter_matrix( )功能。
您必須手動選擇最適合您任務的屬性,此工具可幫助您瞭解數據並深入瞭解數據。