轉換/重塑數據進行分析 - Python /熊貓

我正在執行一項任務，我必須從網絡（IMDB-奧斯卡獲獎電影）中提取信息，然後分析數據。轉換/重塑數據進行分析 - Python /熊貓

我用jupyter Python庫（請求，熊貓）

由於這一刻，我已經從網站拉的數據，並將數據存儲在一個列表在本image名單內。

我的問題是，我該如何改變形狀，以便更方便地分析數據？我很樂意收到表格結構中的數據，但列表的長度並不相同。

2017-06-18 D.Guy

你可以發佈樣本數據嗎？（不是圖像） –

您可以將列表列表轉換爲字典，然後使用像MongoDB這樣的對象數據庫，或者將其存儲爲json以供進一步分析。

myList = [[('Name', 'Moonlight'), ('Genres', ['Drama']), 
      ('Writers', ['Barry Jenkins', 'Tarell Alvin McCraney']), 
      ('Actors', ['Mahershala Ali', 'Shariff Earp', 'Duan Sanderson']), 
      ('Directors', ['Barry Jenkins']), ('Duration', '1h 51min')]] 
l = [tup for item in myList for tup in item] 
d = {col: attr for col, attr in l} 
print(d) 
>>{'Genres': ['Drama'], 'Name': 'Moonlight', 'Directors': ['Barry Jenkins'], 'Writers': ['Barry Jenkins', 'Tarell Alvin McCraney'], 'Actors': ['Mahershala Ali', 'Shariff Earp', 'Duan Sanderson'], 'Duration': '1h 51min'}

如果你希望自己的數據爲板狀你希望顯示的表二維像主/外鍵關係的RDBMS因爲在熊貓列存儲列表並沒有真正很好地工作。

movie (mov_id*, name, duration) 
directors (mov_id*, director_name) 
writers (mov_id*, writer_name) 
actors (mov_id*, actor_name)

你必須從這個模式4個DataFrames（有些表的優化可能會產生更少的表），其中可以利用熊貓來得到你需要做的工作做關係代數。

來源

2017-06-18 22:54:02

轉換/重塑數據進行分析 - Python /熊貓

回答

相關問題