data-science

0熱度

1回答

我試圖在過去幾年中創建美國某些州的數據距離矩陣。眼下，數據的格式爲： State Condition 2016 2015 2014 2013 Alabama A 1 2 3 4 Alaska A 2 3 4 5 Arizona A 3 4 5 6 Alabama B 4 3 2 1 Alaska B 5 4 3 2 Ari

1熱度

1回答

使用熊貓數據幀從MultiIindex系列添加滯後功能

我有一個多指標系列（3個指標），看起來像這樣： Week ID_1 ID_2 3 26 1182 39.0 4767 42.0 31393 20.0 31690 42.0 32962 3.0 .................................... 我也有一個數據幀df其中包含所有列（及

0熱度

1回答

如何在Python和Seaborn中使用`sns.heatmap`的`annot`方法給自定義標籤？

如何使用sns.heatmap的annot方法爲其提供自定義命名方案？本質上，我想刪除所有低於我的閾值（在這種情況下爲0）的標籤。我嘗試了@ojy在Custom Annotation Seaborn Heatmap中所說的話，但是我收到以下錯誤消息。我看到一個例子，其中有人遍歷每個單元格，這是唯一的方法嗎？ Seaborn documentation: annot : bool or rect

4熱度

2回答

下載Graphlab依賴的問題get_dependencies（）

我在嘗試下載運行graphlab所需的依賴關係時遇到了問題。我不import graphlab我得到以下幾點： ACTION REQUIRED: Dependencies libstdc++-6.dll and libgcc_s_seh-1.dll not found. 1. Ensure user account has write permission to C:\Users\DANISU

3熱度

1回答

如何從PySpark的SQLLite db文件加載表？

我想從本地磁盤中存儲的SQLLite .db文件加載表。 PySpark有沒有乾淨的方法來做到這一點？目前，我正在使用的解決方案，但沒有作爲優雅。首先，我使用熊貓來閱讀表格，儘管sqlite3。一個問題是，在過程中架構信息沒有通過（可能會或可能不成問題）。我想知道是否有直接的方式來加載表而不使用熊貓。 import sqlite3 import pandas as pd db_path =

0熱度

1回答

返回類型重載實施星火DSTREAM

當目前正在努力實現我的Eclipse環境中我自己實現的ApacheSpark V2.0 DSTREAM import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.StreamingContext import org.apache.spark.rdd.RDD import org.a

0熱度

2回答

在sklearn或python中更快的AUC

我有超過50萬對真實標籤和預測分數（每個1d陣列的長度不一，可能在10,000-30,000之間），我需要計算AUC。現在，我有一個for循環調用： # Simple Example with two pairs of true/predicted values instead of 500,000 from sklearn import metrics import numpy as np

1熱度

2回答

如何在r中輸出正確格式的數據幀？

我必須編寫一個函數來讀取一個完整的文件目錄，並報告每個數據文件中完全觀察到的情況的數量（每個可觀察實例中沒有NA值）。該函數應該返回一個數據框，其中第一列是文件的名稱，第二列是完整案例的編號。請參閱下面的草稿，希望評論有幫助！ complete <- function (directory, id = 1:332){ nobs = numeric() #currently blank

0熱度

2回答

使用Spark的文本分類ML

我有一個自由文本描述，基於此我需要執行分類。例如，描述可以是事件的描述。根據事件的描述，我需要預測與事件相關的風險。例如：「在城裏謀殺」 - 這種描述是「高」風險的候選人。我試過邏輯迴歸，但意識到目前僅支持二進制分類。對於基於自由文本描述的多類分類（只有三種可能的值），最適合的算法是什麼？（線性迴歸或樸素貝葉斯）

0熱度

1回答

在Predictionio中運行建議的最低系統要求

我試圖將predictionio與我的應用程序集成。我在Predictionio網站中使用推薦引擎部署，如quick start。面對很多問題，但能夠建立引擎。我試圖用pio train來訓練模型。但它給出了一個錯誤，說「java.lang.StackOverflowError」。所以這意味着我的服務器內存不足。然後我嘗試使用pio train -- --driver-memory 5g --