data-science

    3熱度

    2回答

    我用的Airbnb數據集上Kaggle工作分類變量: https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings ,並要爲語言列的值簡化成2組的分組 - 英語和非英語。 例如: users.language.value_counts() en 15011 zh 101 fr 99 de 53 es 53 ko

    -2熱度

    1回答

    我有一個郵政編碼的數據庫。 我想爲每個郵政編碼創建4個變量,分別是2008年1月1日至2008年6月30日的年份,月份,日期和小時 目標是創建一個指標,用於計算已經拉。

    1熱度

    1回答

    我使用Scikit-學習的RandomForestClassifier預測文檔的多個標籤。每個文檔有50個功能,沒有任何文檔具有任何缺失的功能,並且每個文檔至少有一個與其關聯的標籤。 clf = RandomForestClassifier(n_estimators=20).fit(X_train,y_train) preds = clf.predict(X_test) 然而,我注意到,預測

    0熱度

    2回答

    我是新來的蟒蛇,並希望通過蟒蛇3.5學數據分析安裝蟒蛇3.5大熊貓,同時通過在cmd它顯示警告安裝大熊貓。

    2熱度

    1回答

    我編寫了for循環來枚舉包含n行28x28像素值的多維ndarray。 我正在尋找重複的每一行的索引以及沒有冗餘的重複索引。 我發現此代碼here(感謝unutbu)並將其修改爲讀取ndarray,它可以工作70%的時間,但30%的時間將錯誤的圖像識別爲重複項。 如何改進以檢測正確的行? def overlap_same(arr): seen = [] dups = collections.d

    0熱度

    1回答

    我在多軸barplot有麻煩。我在同一個圖中有一個帶有條和點的X,Y軸。重點是我必須在不同比例下顯示它們兩個 雖然我可以正確顯示兩個(條和點),但是當我嘗試在左右軸上設置不同比例時,問題就出現了。我不知道如何改變附屬軸的比例尺,以及如何將紅色圓點綁定到右側的軸上,以及如何將條形圖綁定到左側的軸上。 這是我的代碼和我所得到的: labels <- value mp <- barplot(heigh

    1熱度

    1回答

    我一直在嘗試爲分類問題實施邏輯迴歸,但它給了我非常奇怪的結果。我已經獲得了體面的結果與梯度提升和隨機森林,所以我想到基本,看看我能達到什麼最好。你能幫我指出我做錯了什麼導致了這種過度配合? 你可以從 https://www.kaggle.com/c/santander-customer-satisfaction/data 這裏的數據是我的代碼: import pandas as pd impor

    2熱度

    1回答

    關於TensorFlow的問題: 我在看網站上的視頻和模型,它似乎只有SGD作爲機器學習算法。我想知道其他算法是否也包含在張量流中,如L-BFGS。 感謝您的回覆。

    -2熱度

    1回答

    我是數據分析人員的新手。我正在嘗試使用python分析數據集。 我想計數沒有。在性別欄的存活列 男號,女1秒的 PassengerId Survived Pclass Sex 0 1 0 3 male 1 2 1 1 female 2 3 1 3 male 3 4 1 1 female 4 5 0 3 male 我試過GROUPBY(),但它給錯誤。 In[88] titanic_data.gro

    6熱度

    2回答

    我試圖按照quick start guide中提到的部署推薦引擎。 我完成了構建引擎的步驟。現在我想要訓練推薦引擎。我在快速入門指南中提到過。 (執行pio train)。然後我得到了冗長的錯誤日誌,我無法在這裏粘貼所有內容。所以我把錯誤的前幾行。 [INFO] [Console$] Using existing engine manifest JSON at /home/PredictionIO