data-science

    0熱度

    1回答

    我試圖在過去幾年中創建美國某些州的數據距離矩陣。眼下,數據的格式爲: State Condition 2016 2015 2014 2013 Alabama A 1 2 3 4 Alaska A 2 3 4 5 Arizona A 3 4 5 6 Alabama B 4 3 2 1 Alaska B 5 4 3 2 Ari

    1熱度

    1回答

    我有一個多指標系列(3個指標),看起來像這樣: Week ID_1 ID_2 3 26 1182 39.0 4767 42.0 31393 20.0 31690 42.0 32962 3.0 .................................... 我也有一個數據幀df其中包含所有列(及

    0熱度

    1回答

    如何使用sns.heatmap的annot方法爲其提供自定義命名方案? 本質上,我想刪除所有低於我的閾值(在這種情況下爲0)的標籤。我嘗試了@ojy在Custom Annotation Seaborn Heatmap中所說的話,但是我收到以下錯誤消息。我看到一個例子,其中有人遍歷每個單元格,這是唯一的方法嗎? Seaborn documentation: annot : bool or rect

    4熱度

    2回答

    我在嘗試下載運行graphlab所需的依賴關係時遇到了問題。我不import graphlab我得到以下幾點: ACTION REQUIRED: Dependencies libstdc++-6.dll and libgcc_s_seh-1.dll not found. 1. Ensure user account has write permission to C:\Users\DANISU

    3熱度

    1回答

    我想從本地磁盤中存儲的SQLLite .db文件加載表。 PySpark有沒有乾淨的方法來做到這一點? 目前,我正在使用的解決方案,但沒有作爲優雅。首先,我使用熊貓來閱讀表格,儘管sqlite3。一個問題是,在過程中架構信息沒有通過(可能會或可能不成問題)。我想知道是否有直接的方式來加載表而不使用熊貓。 import sqlite3 import pandas as pd db_path =

    0熱度

    1回答

    當目前正在努力實現我的Eclipse環境中我自己實現的ApacheSpark V2.0 DSTREAM import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.StreamingContext import org.apache.spark.rdd.RDD import org.a

    0熱度

    2回答

    我有超過50萬對真實標籤和預測分數(每個1d陣列的長度不一,可能在10,000-30,000之間),我需要計算AUC。現在,我有一個for循環調用: # Simple Example with two pairs of true/predicted values instead of 500,000 from sklearn import metrics import numpy as np

    1熱度

    2回答

    我必須編寫一個函數來讀取一個完整的文件目錄,並報告每個數據文件中完全觀察到的情況的數量(每個可觀察實例中沒有NA值)。該函數應該返回一個數據框,其中第一列是文件的名稱,第二列是完整案例的編號。 請參閱下面的草稿,希望評論有幫助! complete <- function (directory, id = 1:332){ nobs = numeric() #currently blank

    0熱度

    2回答

    我有一個自由文本描述,基於此我需要執行分類。例如,描述可以是事件的描述。根據事件的描述,我需要預測與事件相關的風險。例如:「在城裏謀殺」 - 這種描述是「高」風險的候選人。 我試過邏輯迴歸,但意識到目前僅支持二進制分類。對於基於自由文本描述的多類分類(只有三種可能的值),最適合的算法是什麼? (線性迴歸或樸素貝葉斯)

    0熱度

    1回答

    我試圖將predictionio與我的應用程序集成。我在Predictionio網站中使用推薦引擎部署,如quick start。 面對很多問題,但能夠建立引擎。 我試圖用pio train來訓練模型。但它給出了一個錯誤,說「java.lang.StackOverflowError」。所以這意味着我的服務器內存不足。然後我嘗試使用pio train -- --driver-memory 5g --