2017-09-08 77 views
0

我有一個類似於下面所示的數據集,在真實的情況下,行數會在10000到1000000之間。 會有更多的列,但是核心問題圍繞這兩個字段旋轉。基於Python的多標籤分類

已知的標記

我知道類別-'Apple」, '藍莓', '橙', '生菜'

數據集

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']}) 

問題:

我有使用groupby創建一個或多個指標

當類別colum n具有未知單元格值我需要從「詳細信息」中讀取文本並預測類別的最適合標籤。 例如

  • 沙拉 - >萵苣,水果(行#5) - >橙水果(行#8) - >藍莓 葉(行#9) - > '生菜' 應當理解,一些行可以 不分類。

幫助需要:

我在數據科學的算法是一個新手,找一些指導,以確定解決問題的正確模式。

回答

0

對「詳細信息」列使用樸素貝葉斯,然後在「類別」列上執行簡單過濾並刪除具有已知類別值的行。

+0

你能分享相關的代碼以獲得有用的答案嗎? –