2016-04-22 65 views
0

我是新來的Python。最近,我有一個在xml文件中處理大量健康數據的項目。 下面是一個例子:存儲大數據python

enter image description here

在我的數據,還有他們的大約100和他們每個人都有不同的ID,來源,類型和文字。我想將所有這些數據存儲在數據中,以便我可以訓練這個數據集,我腦海中的第一個想法是使用2D arry(一個存儲id並源自其他存儲文本)。但是,我發現有太多的功能,我想知道哪些功能屬於每個文檔。

任何人都可以推薦一個最好的方法來做到這一點。

+1

你可能會忘記帶有id的字典作爲關鍵字,或者是一個字典(帶有作爲鍵的特徵和作爲值的值)或一個對象作爲值。 – DeepSpace

+0

我將圖像複製到您的問題中,但最好使用「{}」而不是圖像發佈相關代碼。 – Leb

+0

至於你的問題,我會建議使用XML解析包來獲取數據,你可以導入到字典或可能的數據框。現在它的立場是,你的問題太廣泛了。 – Leb

回答

0

對於可擴展性,簡單性和修的,你應該歸那些數據,建立數據庫架構,然後將這些東西到數據庫(sqlite的,Postgres的,MySQL的,等等)

這將移動複雜的數據邏輯從蟒蛇的。這是Model-view-controller的典型做法。

創建一個python字典並遍歷它是快速和骯髒的。如果你想從數據中獲得實際意義,它將很快成爲巨大的技術時間。