2017-03-15 42 views
2

我是一個初學者machine learningscikit-learn所以這可能是一個愚蠢的問題..瞭解,並將其應用在新的數據

我試圖做這樣的事情:

features = [['adam'], ['james'], ['amy']] 
labels = ['hello adam', 'hello james', 'hello amy'] 

clf = clf.fit(features, labels) 

print clf.predict(['john']) 
# This should give out 'hello john' 

這可能使用scikit學習?

在此先感謝!

回答

2

解決此問題的原則性方法是按順序進行序列學習,這是一個更復雜的野獸,並且不屬於scikit-learn的範疇。

有了足夠的特徵工程和正確的問題表達式,您仍然可以幫助更簡單的算法,例如scikit中的算法來實現此任務。有跡象表明,需要解決兩個主要困難:

  • 如何在功能和您的標籤轉換成數字表示(一熱,嵌入物,...)
  • 如何編碼的可變長度序列轉換成一個固定長度的向量,可以用於scikit學習算法(單詞包,平均池,rnn)。
相關問題