pyspark

    0熱度

    1回答

    我有一個json和csv文件,其內容相同,內容爲1.8m亞馬遜的評論。 我正在執行2個操作:DataFrame行數和生成文本數據的TFIDF。我用1,2,4和8個內核嘗試了這個操作。隨着內核數量的增加,基於csv的DataFrame的處理速度成比例增加,但基於json的保持不變。 行計數例如: data = spark.read.format("csv").option("header", "tr

    -1熱度

    2回答

    我有一個火花數據框,它有兩個由函數collect_set組成的列。我想將這兩列的集合組合成一列。我應該怎麼做?他們都是一套串 。例如我從呼叫collect_set形成2列 Fruits | Meat [Apple,Orange,Pear] [Beef, Chicken, Pork] 我如何把它變成: Food [Apple,Orange,Pear, Beef, Chicken

    0熱度

    1回答

    有人願意幫我解決這個PySpark問題嗎?我花了幾天的時間。當我多次打印時,我無法弄清楚爲什麼我的模式長度會發生變化。 Spark的版本是2.2,我使用Jupyter Notebook在20個節點的集羣上運行代碼。 這裏是我的代碼: import myReader # read data from binary files data=sc.binaryFiles('Data/

    3熱度

    1回答

    我收到以下警告,當我運行PySpark工作: 17/10/06 18:27:16 WARN ARPACK: Failed to load implementation from: com.github.fommil.netlib.NativeSystemARPACK 17/10/06 18:27:16 WARN ARPACK: Failed to load implementation from:

    1熱度

    3回答

    我試圖從Kafka做結構化流式處理。我打算將檢查點存儲在HDFS中。我讀了一個cloudera博客,建議不要在HDFS中爲Spark流存儲檢查點。結構流式檢查點是同樣的問題嗎? https://blog.cloudera.com/blog/2017/06/offset-management-for-apache-kafka-with-apache-spark-streaming/。 在結構化流媒體

    -1熱度

    2回答

    我想從我的Python腳本和數據集是H:\spark_material驅動器/文件夾運行spark-submit命令。它只是不會工作! 但是,如果我複製我的Python腳本到這個文件夾C:\spark\bin然後它的工作。 我相信它與環境變量有關。 這裏是我的路徑= %JAVA_HOME%\bin; %SPARK_HOME%\bin 這裏是我的變量: HADOOP_HOME = C:\winuti

    2熱度

    2回答

    雖然運行pyspark工作,並作爲輸入的增長,我注意到,我不斷收到內存錯誤像下面... ERROR cluster.YarnScheduler: Lost executor 12 on compute-2-10.local: Container killed by YARN for exceeding memory limits. 1.5 GB of 1.5 GB physical memor

    0熱度

    1回答

    我有一個用例 我們的Java框架,從室壁運動分析實時數據蜂巢表中每半小時一班。 我需要訪問這個配置表格,並做一些接近實時的處理。一小時延遲是好的,因爲我沒有權限訪問Kinesis流。 一旦處理完成在spark(pyspark優先),我必須創建一個新的kinesys流並推送數據。 然後,我將使用Splunk並將其拉近實時。 問題是,任何人使用python完成從蜂巢的火花流?我必須做一個POC,然後做

    0熱度

    1回答

    我希望我不會得到這個問題的反對票。這是令人困惑的多個火花版本,所以讓我反問。請注意,這個問題純粹是從性能角度和而不是開發人員的生產力/技能角度。我是新來的火花,許多人想知道2017年的最新狀況。 我知道與python的JIT問題,這不是問題在這裏。這純粹來自PySpark的角度。 我仍然無法相比,使用火花API從斯卡拉直接(或如果在所有它是虛假的陳述)時,爲什麼PySpark據報道聽不進去。基於我

    0熱度

    1回答

    我需要處理一個數據集來識別頻繁項目集。所以輸入欄必須是一個向量。原來列是由逗號分隔的項目的字符串,所以我做了以下: functions.split(out_1['skills'], ',') 的問題是在skills的,對於一些行,我已經重複值,並試圖當這是造成錯誤識別頻繁項目集。 我想在矢量轉換成一組去除重複的元素。事情是這樣的: functions.to_set(functions.spli