scikit-learn

    3熱度

    1回答

    我使用Scikit-Learn培訓了一個分類器。我正在加載輸入以從CSV中訓練我的分類器。我的一些專欄(例如'Town')的價值是規範的(例如可以是'紐約','巴黎','斯德哥爾摩',...)。爲了使用這些規範列,我正在使用Scikit-Learn的LabelBinarizer進行單熱編碼。 我這是怎麼訓練之前轉換數據: import pandas as pd from sklearn.prep

    0熱度

    1回答

    我使用下面的代碼做主題建模上的我的文檔主題的概率分佈: from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5

    0熱度

    1回答

    如何預處理多值特徵(genre_ids)? 由於我需要爲一列的每一行分配一個數值,但我可以如何有效地預處理此genre_ids? msno |city |bd |gender| song_id| song_length| genre_ids| artist_name 1 12 33 0 11 222 372 89 2 11 23 1 1 202 372|374|375

    -5熱度

    1回答

    使用以下代碼時,n_fold必須是2或更多。我如何改變它可以與n_folds = 1一起工作? 將其更改爲1時,對於n_folds = 2以及更多,它可以工作。有些東西似乎不起作用。 對於n_folds = 1,有下列錯誤: Traceback (most recent call last): File "GX.py", line 266, in <module> scores

    3熱度

    2回答

    說我有以下數據 import pandas as pd data = { 'Reference': [1, 2, 3, 4, 5], 'Brand': ['Volkswagen', 'Volvo', 'Volvo', 'Audi', 'Volkswagen'], 'Town': ['Berlin', 'Berlin', 'Stockholm', 'Munich',

    0熱度

    1回答

    我正在學習一點ML。我知道k-最近鄰居(kNN)的基本知識,但我一直認爲它用於例子中的連續數據。 我現在使用的教程使用kNN對混合類型(連續特徵和幾個分類特徵)的某些數據進行分類。我知道對於連續的人來說,通常只是使用像歐幾里德距離或其他東西,但是當它們混合時它們如何處理呢? 我看到如何容易地計算一個二元變量的距離,但是如果沒有「訂單」的分類變量呢? 編輯:我正在關注Kaggle問題的this教程。

    3熱度

    2回答

    其實,我的問題是基於: Is there a faster way to update dataframe column values based on conditions? 因此,數據應該是: import pandas as pd import io t=""" AV4MdG6Ihowv-SKBN_nB DTP,FOOD AV4Mc2vNhowv-SKBN_Rn Cash 1,FOO

    0熱度

    1回答

    可能是一個非常愚蠢的問題,所以對我來說很容易,但在這裏我去。 因此,這裏就是我的數據看起來像...... date,locale,category,site,alexa_rank,sessions,user_logins 20170110,US,1,google,1,500,5000 20170110,EU,1,google,2,400,2000 20170111,US,2,facebook

    0熱度

    1回答

    我想基於組(grp列)進行時間序列交叉驗證。在下面的樣本數據,溫度是我的目標變量 import numpy as np import pandas as pd timeS=pd.date_range(start='1980-01-01 00:00:00', end='1980-01-01 00:00:05', freq='S') df = pd.DataFrame(dict(time=ti

    -2熱度

    2回答

    我正在構建一個迴歸模型來預測設備的效率。有沒有辦法扭轉這種情況,並從輸出中得到模型的輸入?我知道像決策樹和隨機森林這樣的模型可以看到特徵的重要性,對於線性模型,您可以看到賦予每個特徵的權重,但是可以從該模型生成一些輸入嗎?例如。給定最佳效率,預測輸入組合。