2017-06-18 81 views
0

我正在執行一項任務,我必須從網絡(IMDB-奧斯卡獲獎電影)中提取信息,然後分析數據。轉換/重塑數據進行分析 - Python /熊貓

我用jupyter Python庫(請求,熊貓)

由於這一刻,我已經從網站 拉的數據,並將數據存儲在一個列表在本image名單內。

我的問題是,我該如何改變形狀,以便更方便地分析數據?我很樂意收到表格結構中的數據,但列表的長度並不相同。

+0

你可以發佈樣本數據嗎? (不是圖像) –

回答

0

您可以將列表列表轉換爲字典,然後使用像MongoDB這樣的對象數據庫,或者將其存儲爲json以供進一步分析。

myList = [[('Name', 'Moonlight'), ('Genres', ['Drama']), 
      ('Writers', ['Barry Jenkins', 'Tarell Alvin McCraney']), 
      ('Actors', ['Mahershala Ali', 'Shariff Earp', 'Duan Sanderson']), 
      ('Directors', ['Barry Jenkins']), ('Duration', '1h 51min')]] 
l = [tup for item in myList for tup in item] 
d = {col: attr for col, attr in l} 
print(d) 
>>{'Genres': ['Drama'], 'Name': 'Moonlight', 'Directors': ['Barry Jenkins'], 'Writers': ['Barry Jenkins', 'Tarell Alvin McCraney'], 'Actors': ['Mahershala Ali', 'Shariff Earp', 'Duan Sanderson'], 'Duration': '1h 51min'} 

如果你希望自己的數據爲板狀你希望顯示的表二維像主/外鍵關係的RDBMS因爲在熊貓列存儲列表並沒有真正很好地工作。

movie (mov_id*, name, duration) 
directors (mov_id*, director_name) 
writers (mov_id*, writer_name) 
actors (mov_id*, actor_name) 

你必須從這個模式4個DataFrames(有些表的優化可能會產生更少的表),其中可以利用熊貓來得到你需要做的工作做關係代數。