我有一個類似於下面所示的數據集，在真實的情況下，行數會在10000到1000000之間。會有更多的列，但是核心問題圍繞這兩個字段旋轉。基於Python的多標籤分類

已知的標記

我知道類別-'Apple」， '藍莓'， '橙'， '生菜'

數據集

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']})

問題：

我有使用groupby創建一個或多個指標

當類別colum n具有未知單元格值我需要從「詳細信息」中讀取文本並預測類別的最適合標籤。例如

沙拉 - >萵苣，水果（行＃5） - >橙水果（行＃8） - >藍莓葉（行＃9） - > '生菜' 應當理解，一些行可以不分類。

幫助需要：

我在數據科學的算法是一個新手，找一些指導，以確定解決問題的正確模式。

來源

2017-09-08 Reshmi Nandy

對「詳細信息」列使用樸素貝葉斯，然後在「類別」列上執行簡單過濾並刪除具有已知類別值的行。

來源

2017-09-09 07:37:25 Shibaji

你能分享相關的代碼以獲得有用的答案嗎？ –

基於Python的多標籤分類

已知的標記

數據集

問題：

幫助需要：

回答

相關問題