0
我正在執行一項任務,我必須從網絡(IMDB-奧斯卡獲獎電影)中提取信息,然後分析數據。轉換/重塑數據進行分析 - Python /熊貓
我用jupyter Python庫(請求,熊貓)
由於這一刻,我已經從網站 拉的數據,並將數據存儲在一個列表在本image名單內。
我的問題是,我該如何改變形狀,以便更方便地分析數據?我很樂意收到表格結構中的數據,但列表的長度並不相同。
我正在執行一項任務,我必須從網絡(IMDB-奧斯卡獲獎電影)中提取信息,然後分析數據。轉換/重塑數據進行分析 - Python /熊貓
我用jupyter Python庫(請求,熊貓)
由於這一刻,我已經從網站 拉的數據,並將數據存儲在一個列表在本image名單內。
我的問題是,我該如何改變形狀,以便更方便地分析數據?我很樂意收到表格結構中的數據,但列表的長度並不相同。
您可以將列表列表轉換爲字典,然後使用像MongoDB這樣的對象數據庫,或者將其存儲爲json以供進一步分析。
myList = [[('Name', 'Moonlight'), ('Genres', ['Drama']),
('Writers', ['Barry Jenkins', 'Tarell Alvin McCraney']),
('Actors', ['Mahershala Ali', 'Shariff Earp', 'Duan Sanderson']),
('Directors', ['Barry Jenkins']), ('Duration', '1h 51min')]]
l = [tup for item in myList for tup in item]
d = {col: attr for col, attr in l}
print(d)
>>{'Genres': ['Drama'], 'Name': 'Moonlight', 'Directors': ['Barry Jenkins'], 'Writers': ['Barry Jenkins', 'Tarell Alvin McCraney'], 'Actors': ['Mahershala Ali', 'Shariff Earp', 'Duan Sanderson'], 'Duration': '1h 51min'}
如果你希望自己的數據爲板狀你希望顯示的表二維像主/外鍵關係的RDBMS因爲在熊貓列存儲列表並沒有真正很好地工作。
movie (mov_id*, name, duration)
directors (mov_id*, director_name)
writers (mov_id*, writer_name)
actors (mov_id*, actor_name)
你必須從這個模式4個DataFrames(有些表的優化可能會產生更少的表),其中可以利用熊貓來得到你需要做的工作做關係代數。
你可以發佈樣本數據嗎? (不是圖像) –