0
我有一個類似於下面所示的數據集,在真實的情況下,行數會在10000到1000000之間。 會有更多的列,但是核心問題圍繞這兩個字段旋轉。基於Python的多標籤分類
已知的標記
我知道類別-'Apple」, '藍莓', '橙', '生菜'
數據集
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
問題:
我有使用groupby創建一個或多個指標
當類別colum n具有未知單元格值我需要從「詳細信息」中讀取文本並預測類別的最適合標籤。 例如
- 沙拉 - >萵苣,水果(行#5) - >橙水果(行#8) - >藍莓 葉(行#9) - > '生菜' 應當理解,一些行可以 不分類。
幫助需要:
我在數據科學的算法是一個新手,找一些指導,以確定解決問題的正確模式。
你能分享相關的代碼以獲得有用的答案嗎? –