2014-10-06 64 views
0

我有什麼我認爲是一個奇怪的問題,我試圖獲得可能重疊的產品屬性。通過機器學習提取重疊類別

在我的情況下,鑑於標題,製造商,描述,我需要知道產品是牛仔褲還是別的什麼東西,還有更多,無論是緊身牛仔褲還是其他類型的牛仔褲。通過sci-kit演習,似乎我一次只能預測一個類別,這不適用於我的案例,還有關於如何解決問題的任何建議?

我心目中現在的問題是要對每個類別的前一個訓練數據: Jeans = ['desc of jeans 1', 'desc of jeans 2'] Skinny Jeans ['desc of skinny jeans 1', 'desc of skinny jeans 2'] 這種訓練數據,那麼我要問一個給定的未知產品的可能性,並希望這種答案的回報匹配百分比: Unknown_Product_1 = { 'jeans': 93, 'skinny_jeans': 80, 't-shirt': 5 } 我是否偏離基地?如果這是一條正確的道路,那麼我該如何實現呢?

謝謝!

+0

這是分層分類。 scikit-learn沒有內置的支持。您可以將其減少到多個分類問題或單個多標籤問題。 – 2014-10-08 09:55:33

回答

1

您可能正在描述一項稱爲多標籤學習或multi-label classification的任務。

這個任務和標準分類任務之間的一個主要區別是,通過學習標籤之間的關係,有時你可以獲得比訓練許多獨立標準分類器更好的性能。

+0

+1。絕對是多標籤分類。可能可以使用分類作爲層次結構的知識。褲子/牛仔褲//緊身牛仔褲 – greeness 2014-10-07 04:27:18

+0

你是對的,它被稱爲多標籤和這個stackoverflow真的幫助: http://stackoverflow.com/questions/10526579/use-scikit-learn-to-classify-into-多類別 – wahyudinata 2014-10-07 19:38:39