pyspark

    -1熱度

    1回答

    假設我有以下日期時間列,如下所示。我想將字符串中的列轉換爲日期時間類型,這樣我就可以提取月份,日期和年份等。 +---+------------+ |agg| datetime| +---+------------+ | A|1/2/17 12:00| | B| null| | C|1/4/17 15:00| +---+------------+ 我曾嘗試下面的下面的代碼,但在d

    0熱度

    1回答

    我有下面的代碼創建如同下面的數據幀: ratings = spark.createDataFrame( sc.textFile("myfile.json").map(lambda l: json.loads(l)), ) ratings.registerTempTable("mytable") final_df = sqlContext.sql("select * from

    0熱度

    2回答

    我在一個數據幀的工作有三列,可樂,COLB和COLC +---+-----+-----+-----+ |id |colA |colB |colC | +---+-----+-----+-----+ | 1 | 5 | 8 | 3 | | 2 | 9 | 7 | 4 | | 3 | 3 | 0 | 6 | | 4 | 1 | 6 | 7 | +---+-----+-----+-----

    0熱度

    1回答

    在我的pyspark 2.0.1版本中,我需要檢查特定名稱[說客戶端]是否出現在我的rdd列名稱中,如果該字段客戶端不是&,則生成錯誤消息目前在我的數據fame.Can請你提出一些語法像下面的語法 field='client' field not in df.schema.fields: print('field: ', field, "is not available)

    2熱度

    1回答

    我從Cloudera quickstart docker容器上的Python Spark(v 1.6.0)開始。 我把一個靜態 .txt文件(500 MB)放在hdfs下的/user/root/access_log.txt文件中。 在pyspark我試着將文件加載用TE以下行的Python代碼: lines = sc.textFile("hdfs://quickstart.cloudera/use

    0熱度

    1回答

    我正在使用我自己沒有在AWS中設置的EMR。 我想了解Python解釋器的火花是使用在我的.bashrc我有以下設置export PYSPARK_PYTHON=/mnt/anaconda/bin/python 當我運行我們的火花提交命令我用sys.executable打印到路徑python解釋器,這確實是它使用的解釋器。 然而,當我專門去到該文件夾​​,運行Python的該實例與./python,

    0熱度

    1回答

    我會盡我所能描述我的情況,然後我希望本網站上的其他用戶可以告訴我我正在服用的課程是否合理,或者是否需要重新評估我的方法/選項。 背景: 我用pyspark,因爲我最熟悉Python VS斯卡拉,java或R.我有一個從蜂巢表使用pyspark.sql查詢表構成的火花數據幀。在這個數據框中,我有許多不同的'文件'。每個文件都由時間序列數據組成。我需要對每個「文件」的整個時間值對數據的子集執行滾動迴歸

    0熱度

    1回答

    的區別我有一個表像這樣來創建新的列: +-----+----+-------+-------+ |name | id | msg_a | msg_b | +-----+----+-------+-------+ | a| 3|[a,b,c]|[c] | | b| 5|[x,y,z]|[h,x,z]| | c| 7|[a,x,y]|[j,x,y]| +-----+----+-------

    0熱度

    1回答

    我正在使用兩個inicial列的數據幀,id和colA。 +---+-----+ |id |colA | +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | +---+-----+ 我需要合併該數據幀到另一列以上,COLB。我知道colB非常適合DataFrame的末尾,我只需要一些方法將它們連接在一起。 +-----+ |c

    0熱度

    3回答

    我正在尋找一種方法來選擇我的數據框在pyspark中的列。對於第一行,我知道我可以使用df.first(),但不確定列是否在沒有列名。 我有5列,並希望通過其中每一個循環。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-