pyspark

1熱度

1回答

提取的詞彙，我可以通過以下方式 fl = StopWordsRemover(inputCol="words", outputCol="filtered") df = fl.transform(df) cv = CountVectorizer(inputCol="filtered", outputCol="rawFeatures") model = cv.fit(df) print(mod

0熱度

1回答

pyspark-MongoDB的集合讀命令不執行

我已經安裝了以下版本： - 火花2.1.0，斯卡拉2.11.6， MongoDB的3.2.17 我試圖啓動與下面的pyspark殼命令 ./bin/pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 在此之後，我開始火花會話如下 from pyspark.sql import SparkSession

0熱度

1回答

java.lang.ClassNotFoundException：使用Python連接BigSQL的com.ibm.db2.jcc.DB2Driver異常

我是pyspark的新手。我在Ubuntu 16.0上使用python 3.5 & spark2.2.0。我寫了下面的代碼使用pyspark連接BigSQL from pyspark.sql.session import SparkSession spark = SparkSession.builder.getOrCreate() spark_train_df = spark.read.jd

0熱度

1回答

文件處理和數據處理中的PySpark錯誤

我在使用PySpark時遇到困難。我想讀csv文件並做一個熱門編碼（現在）。我收到一個跨越2頁的錯誤。我的示例代碼如下： from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark import SparkContext from pyspark.ml.feature import On

0熱度

1回答

Pyspark錯誤+方法__getnewargs __（[]）不存在

我正在工作spark版本2.2.0,& Python 2.7。我正在使用pyspark &嘗試檢索數據連接BigSQL。下面是我用 import cPickle as cpick import numpy as np import pandas as pd import time import sys from pyspark.sql.session import SparkSessio

0熱度

1回答

火花提交未能檢測出已安裝的模量PIP

我有有下列第三方依賴關係的Python代碼： import boto3 from warcio.archiveiterator import ArchiveIterator from warcio.recordloader import ArchiveLoadFailed import requests import botocore from requests_file import

0熱度

1回答

正確Linux上

配置PySpark和Anaconda3這裏是我到目前爲止所採取的步驟：我安裝Anaconda3和包含在目錄$HOME/anaconda3/bin一切。我cd'ed到$HOME/anaconda3/bin並運行命令./conda install -c conda-forge pyspark。它成功了。我什麼也沒做。更具體地講，有沒有在我的.bashrc 這裏設置變量的一些重要的細節：我運行H

0熱度

2回答

Pyspark ML錯誤對象有沒有屬性地圖

下面是我的數據框和代碼 df= a b c d 1 3 10 110 2 5 12 112 3 6 17 112 4 8 110 442 下面是我的代碼 spark =SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').g

0熱度

1回答

如何壓平星火reduceByKey列表

我試圖簡化下面的代碼： k=sc.parallelize(["dog", "cat", 'ant']).map(lambda x: (len(x),x)) k.reduceByKey(lambda acc,x: [acc,x]).collect() 爲什麼下面失敗 k.reduceByKey(lambda acc,x: [x] if acc == None else acc.append(x

0熱度

1回答

如何使用pycharm IDE在pyspark和mongoDB上工作

我需要在pyspark上工作，才能在MongoDB集合中讀寫。一切工作正常。我用下面的包用MongoDB的連接開始pyspark ./pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 然而，問題是，它是在命令行中，它變得堅韌在命令行中寫代碼巨大。任何人都知道如何在pycharm中使用相同的功能，或者如何使