data-science

3熱度

2回答

我用的Airbnb數據集上Kaggle工作分類變量： https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings ，並要爲語言列的值簡化成2組的分組 - 英語和非英語。例如： users.language.value_counts() en 15011 zh 101 fr 99 de 53 es 53 ko

-2熱度

1回答

R從變量中迭代計算

我有一個郵政編碼的數據庫。我想爲每個郵政編碼創建4個變量，分別是2008年1月1日至2008年6月30日的年份，月份，日期和小時目標是創建一個指標，用於計算已經拉。

1熱度

1回答

樣品與使用多標籤隨機森林沒有標籤指派scikit學習

我使用Scikit-學習的RandomForestClassifier預測文檔的多個標籤。每個文檔有50個功能，沒有任何文檔具有任何缺失的功能，並且每個文檔至少有一個與其關聯的標籤。 clf = RandomForestClassifier(n_estimators=20).fit(X_train,y_train) preds = clf.predict(X_test) 然而，我注意到，預測

0熱度

2回答

如何在Windows 10

我是新來的蟒蛇，並希望通過蟒蛇3.5學數據分析安裝蟒蛇3.5大熊貓，同時通過在cmd它顯示警告安裝大熊貓。

2熱度

1回答

在python中查找重複行的索引ndarray

我編寫了for循環來枚舉包含n行28x28像素值的多維ndarray。我正在尋找重複的每一行的索引以及沒有冗餘的重複索引。我發現此代碼here（感謝unutbu）並將其修改爲讀取ndarray，它可以工作70％的時間，但30％的時間將錯誤的圖像識別爲重複項。如何改進以檢測正確的行？ def overlap_same(arr): seen = [] dups = collections.d

0熱度

1回答

分數R在R barplot

我在多軸barplot有麻煩。我在同一個圖中有一個帶有條和點的X，Y軸。重點是我必須在不同比例下顯示它們兩個雖然我可以正確顯示兩個（條和點），但是當我嘗試在左右軸上設置不同比例時，問題就出現了。我不知道如何改變附屬軸的比例尺，以及如何將紅色圓點綁定到右側的軸上，以及如何將條形圖綁定到左側的軸上。這是我的代碼和我所得到的： labels <- value mp <- barplot(heigh

1熱度

1回答

Logistic迴歸Python

我一直在嘗試爲分類問題實施邏輯迴歸，但它給了我非常奇怪的結果。我已經獲得了體面的結果與梯度提升和隨機森林，所以我想到基本，看看我能達到什麼最好。你能幫我指出我做錯了什麼導致了這種過度配合？你可以從 https://www.kaggle.com/c/santander-customer-satisfaction/data 這裏的數據是我的代碼： import pandas as pd impor

2熱度

1回答

TensorFlow：它只有SGD算法嗎？或者它是否也有其他人喜歡LBFGS

關於TensorFlow的問題：我在看網站上的視頻和模型，它似乎只有SGD作爲機器學習算法。我想知道其他算法是否也包含在張量流中，如L-BFGS。感謝您的回覆。

-2熱度

1回答

計數no。數據框中的特定值pandas

我是數據分析人員的新手。我正在嘗試使用python分析數據集。我想計數沒有。在性別欄的存活列男號，女1秒的 PassengerId Survived Pclass Sex 0 1 0 3 male 1 2 1 1 female 2 3 1 3 male 3 4 1 1 female 4 5 0 3 male 我試過GROUPBY（），但它給錯誤。 In[88] titanic_data.gro

6熱度

2回答

在Predictionio中訓練數據時出現異常

我試圖按照quick start guide中提到的部署推薦引擎。我完成了構建引擎的步驟。現在我想要訓練推薦引擎。我在快速入門指南中提到過。（執行pio train）。然後我得到了冗長的錯誤日誌，我無法在這裏粘貼所有內容。所以我把錯誤的前幾行。 [INFO] [Console$] Using existing engine manifest JSON at /home/PredictionIO