我需要處理很多包含3列的csv文件:日期,電視頻道ID,電影ID。分析抽象數據
基於這些專欄,我需要分類每個電影的風格和電視頻道id的風格。
我是新來大數據過程,我想知道如果我只有一個ID(我不能使用其他來源搜索ID或生成隨機數據來訓練我的算法)我如何分類該數據。
我找到的解決方案是定義一些小時的範圍,並放置在一些流派範圍內的電影。例如:
- 在01:00-04:00之間播放的電影,流派1;
- 04:01-06:00之間播放的電影,流派2;
- 等
分類電影后,我可以基於它們發揮電影的電視頻道分類。
而且我打算做使用的火花呢:)
任何人有另一種解決方案或者有什麼建議?這很難,因爲這些數據看起來像是抽象的。
謝謝
你能提供一些你試過的代碼嗎?就目前來看,這個問題太多而無法回答。 – wheaties
從你的解釋看來,你仍然在搞清楚業務邏輯!一旦找出業務邏輯,可以考慮如何使用火花。 – rakesh