scikit-learn

3熱度

1回答

如何在Scikit-Learn中重新使用LabelBinarizer進行輸入預測

我使用Scikit-Learn培訓了一個分類器。我正在加載輸入以從CSV中訓練我的分類器。我的一些專欄（例如'Town'）的價值是規範的（例如可以是'紐約'，'巴黎'，'斯德哥爾摩'，...）。爲了使用這些規範列，我正在使用Scikit-Learn的LabelBinarizer進行單熱編碼。我這是怎麼訓練之前轉換數據： import pandas as pd from sklearn.prep

0熱度

1回答

使用NMF

我使用下面的代碼做主題建模上的我的文檔主題的概率分佈： from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5

0熱度

1回答

預處理多值功能？

-5熱度

1回答

爲什麼下面的代碼不能得到n_fold = 1的值？

使用以下代碼時，n_fold必須是2或更多。我如何改變它可以與n_folds = 1一起工作？將其更改爲1時，對於n_folds = 2以及更多，它可以工作。有些東西似乎不起作用。對於n_folds = 1，有下列錯誤： Traceback (most recent call last): File "GX.py", line 266, in <module> scores

3熱度

2回答

如何做一個熱碼的熊貓數據幀的幾列後來與使用Scikit-瞭解

說我有以下數據 import pandas as pd data = { 'Reference': [1, 2, 3, 4, 5], 'Brand': ['Volkswagen', 'Volvo', 'Volvo', 'Audi', 'Volkswagen'], 'Town': ['Berlin', 'Berlin', 'Stockholm', 'Munich',

0熱度

1回答

什麼距離函數是用於分類特徵的scikit-learn？

我正在學習一點ML。我知道k-最近鄰居（kNN）的基本知識，但我一直認爲它用於例子中的連續數據。我現在使用的教程使用kNN對混合類型（連續特徵和幾個分類特徵）的某些數據進行分類。我知道對於連續的人來說，通常只是使用像歐幾里德距離或其他東西，但是當它們混合時它們如何處理呢？我看到如何容易地計算一個二元變量的距離，但是如果沒有「訂單」的分類變量呢？編輯：我正在關注Kaggle問題的this教程。

3熱度

2回答

如何做pd.get_dummies或其他方式？

其實，我的問題是基於： Is there a faster way to update dataframe column values based on conditions? 因此，數據應該是： import pandas as pd import io t=""" AV4MdG6Ihowv-SKBN_nB DTP,FOOD AV4Mc2vNhowv-SKBN_Rn Cash 1,FOO

0熱度

1回答

預測使用sklearn的RandomForestRegressor

可能是一個非常愚蠢的問題，所以對我來說很容易，但在這裏我去。因此，這裏就是我的數據看起來像...... date,locale,category,site,alexa_rank,sessions,user_logins 20170110,US,1,google,1,500,5000 20170110,EU,1,google,2,400,2000 20170111,US,2,facebook

0熱度

1回答

時間序列數據的分層交叉驗證

我想基於組（grp列）進行時間序列交叉驗證。在下面的樣本數據，溫度是我的目標變量 import numpy as np import pandas as pd timeS=pd.date_range(start='1980-01-01 00:00:00', end='1980-01-01 00:00:05', freq='S') df = pd.DataFrame(dict(time=ti

-2熱度

2回答

從機器學習輸出獲取輸入

我正在構建一個迴歸模型來預測設備的效率。有沒有辦法扭轉這種情況，並從輸出中得到模型的輸入？我知道像決策樹和隨機森林這樣的模型可以看到特徵的重要性，對於線性模型，您可以看到賦予每個特徵的權重，但是可以從該模型生成一些輸入嗎？例如。給定最佳效率，預測輸入組合。