data-science

    2熱度

    1回答

    我解析的文件也包含UUID類型。 我無法解析文件並得到此錯誤。 從/127.0.0.1:54321 DistributedException: 'NewChunk具有類型數值,但VEC是類型UUID的',致java.lang.AssertionError:NewChunk具有類型數值,但VEC是類型UUID的 任何人都知道這意味着什麼?

    1熱度

    1回答

    我正在使用最近10k-100k樣本(cell s)x 20k特徵(gene s)稀疏值的單細胞RNA測序數據,並且還包含大量元數據,例如,起源的組織(「大腦」與「肝臟」)。元數據是〜10-100列,我存儲爲pandas.DataFrame。現在,我正在製作xarray.DataSets字典,並將它們添加爲座標。由於我在筆記本之間複製片段,因此它看起來很笨重且容易出錯。有更容易的方法嗎? cell_

    1熱度

    1回答

    分組我目前正在讀R for Data Science並試圖創造一些圖表。我知道要在條形圖中獲得比例,您需要使用group = 1。例如,下面的代碼工作: library(ggplot2) ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut, fill = color)) 但我沒有得到相同的比例圖。 ggplot(data = d

    0熱度

    1回答

    我有一個列名稱的付款總額數據集,其中包括從$ 100到$ 1000的付款,有一些付款是$ 100.05,$ 102或104.05,這使得它更加困難。如果該行例如說97美元,那麼我想創建一個具有低於100美元或在100和200之間的類別的列。 我編寫了類似這樣的代碼; 但輸出是以下,所有的行的說之間800和900; 請在這個人的支持。

    -1熱度

    2回答

    這是一個數據纏繞問題,涉及查詢問題。我有一個數據集,每行不代表1個樣本,但包含一列有ID列表。例如,您有3列:年齡,性別& ID。你可以有一行:28, M, 'ID209,ID208'。 是否有簡單的方法來擴展這個數據集,使得每個ID號有一行?我正在與R或Python合作。

    1熱度

    1回答

    我正在處理一個涉及不得不使用以下形式的預處理數據的項目。 數據說明上面已經給出過。目標是預測書面數字是否與所述數字的音頻相匹配。首先,我變換形式的所說陣列(N,13)的裝置在時間軸這樣: 這創建的(1,13),用於每一陣列的一致長度內發言。爲了在一個簡單的vanilla算法中測試它,我將這兩個數組壓縮在一起,以便我們創建一個形式數組(45000,2),當我將它插入到LogisticRegressi

    2熱度

    1回答

    我正在閱讀由Joel Grus從頭開始的「數據科學」一書。我的問題特別涉及第6章,作者使用二項式隨機變量來模擬定理。 結果將是一個圖表,其中包含二項試驗的概率分佈和使用正態分佈的近似圖。這兩個地塊應該非常相似。書示出像這樣的圖表: Author's Chart 他提供的代碼爲: import random from matplotlib import pyplot as plt from co

    1熱度

    1回答

    在準備用於神經網絡訓練的訓練集時,我找到兩種可能的方法。 的傳統方法:計算上整個訓練的平均發送到網絡之前設置,再減去每幅圖像此固定平均值。以類似的方式處理標準偏差。 我發現tensorflow提供的功能tf.image.per_image_standardization做單一圖像正常化。 我不知道哪種方式更合適?

    -2熱度

    1回答

    語言:Python。 我創建了一個模型並將其與joblib一起保存。現在我想加載它來預測新數據---但是數據是以字符串的形式表示的(數值在數值中,但是特徵是用「,」分隔的一行代替,而不是作爲一個大數據框在列中)我這樣做?我知道我可以發送單個輸入並獲得單個預測,但我不知道如何執行此操作。 我用 https://machinelearningmastery.com/save-load-machine-

    0熱度

    1回答

    所以彈性網應該是嶺迴歸(L2正則化)和套索(L1正則化)之間的混合。但是,即使l1_ratio是0,我也沒有得到和脊一樣的結果。我知道山脊使用梯度下降和彈性網使用座標下降,但最優方法應該是相同的,不是嗎?此外,我發現彈性網通常會引發ConvergenceWarnings,原因不明,而套索和脊線則不會。這裏有一個片段: from sklearn.datasets import load_boston