0
我有近TB的數據需要處理。我有一個視頻鏈接到的標籤列表字段。問題是有很多標籤和一個視頻信息鏈接到太多的標籤,如何在轉換之前將其轉換(清理)。 OnehotEncoding和所有其他算法都不適合這個。機器學習每批處理新數據
例:
{"user_id":1, "vid_id":101, "name":"abc", "tags":["night", "horror"], "gender":"Male"}
{"user_id":2, "vid_id":192, "name":"xyz", "tags":["action", "twins"], "gender":"Male"}
等
上述JSON數據具有許多其他PARAMS太。但我想考慮使用這個標籤參數。 現在我想預測數據的性別。用算法或想法幫助我。目前使用Python並使用spark來加載大數據。
你能提供一個你期望清理過的'標籤'輸出看起來像什麼樣子的例子嗎? – vealkind
我的標記重複如'java','JAVA','Java'。我想在培訓前清理數據。如果我使用NeuralNetwork,我需要將所有內容都轉換爲數字。所以這些就是例子。 @vealkind –