2017-08-02 21 views
-1

我有json格式的大數據集,我想從中提取重要的屬性,它能捕捉最多的方差。我想提取這些屬性來在數據集上構建一個搜索引擎,這些屬性是散列鍵。我們如何在json數據上做特徵選擇?

這裏要問的主要問題是在json數據上做功能選擇。

回答

0

您可以使用pandas.read_json()函數將數據讀入一個pandas DataFrame對象。您可以使用此DataFrame對象來深入瞭解您的數據。例如:

data = pandas.load_json(json_file) 
data.head() # Displays the top five rows 
data.info() # Displays description of the data 

或者你可以在這個數據幀使用matplotlib繪製直方圖每個數值屬性

import matplotlib.pyplot as plt 
data.hist(bins=50, figsize=(20,15)) 

如果您有興趣到屬性的相關性,你可以使用pandas.scatter_matrix( )功能。

您必須手動選擇最適合您任務的屬性,此工具可幫助您瞭解數據並深入瞭解數據。