pyspark

0熱度

1回答

我有一個json和csv文件，其內容相同，內容爲1.8m亞馬遜的評論。我正在執行2個操作：DataFrame行數和生成文本數據的TFIDF。我用1,2,4和8個內核嘗試了這個操作。隨着內核數量的增加，基於csv的DataFrame的處理速度成比例增加，但基於json的保持不變。行計數例如： data = spark.read.format("csv").option("header", "tr

-1熱度

2回答

pyspark - 合併2列的集合

我有一個火花數據框，它有兩個由函數collect_set組成的列。我想將這兩列的集合組合成一列。我應該怎麼做？他們都是一套串。例如我從呼叫collect_set形成2列 Fruits | Meat [Apple,Orange,Pear] [Beef, Chicken, Pork] 我如何把它變成： Food [Apple,Orange,Pear, Beef, Chicken

0熱度

1回答

flatMap和pyspark多次打印後的模式更改長度

有人願意幫我解決這個PySpark問題嗎？我花了幾天的時間。當我多次打印時，我無法弄清楚爲什麼我的模式長度會發生變化。 Spark的版本是2.2，我使用Jupyter Notebook在20個節點的集羣上運行代碼。這裏是我的代碼： import myReader # read data from binary files data=sc.binaryFiles('Data/

3熱度

1回答

如何爲星火正確設置本地ARPACK 2.2.0

我收到以下警告，當我運行PySpark工作： 17/10/06 18:27:16 WARN ARPACK: Failed to load implementation from: com.github.fommil.netlib.NativeSystemARPACK 17/10/06 18:27:16 WARN ARPACK: Failed to load implementation from:

1熱度

3回答

Kafka結構化流式檢查點

我試圖從Kafka做結構化流式處理。我打算將檢查點存儲在HDFS中。我讀了一個cloudera博客，建議不要在HDFS中爲Spark流存儲檢查點。結構流式檢查點是同樣的問題嗎？ https://blog.cloudera.com/blog/2017/06/offset-management-for-apache-kafka-with-apache-spark-streaming/。在結構化流媒體

-1熱度

2回答

火星提交將無法在cmd中的任何地方工作

我想從我的Python腳本和數據集是H:\spark_material驅動器/文件夾運行spark-submit命令。它只是不會工作！但是，如果我複製我的Python腳本到這個文件夾C:\spark\bin然後它的工作。我相信它與環境變量有關。這裏是我的路徑= %JAVA_HOME%\bin; %SPARK_HOME%\bin 這裏是我的變量： HADOOP_HOME = C:\winuti

2熱度

2回答

安全地假設pyspark在rdd上的減法是緩慢的/有問題的？

雖然運行pyspark工作，並作爲輸入的增長，我注意到，我不斷收到內存錯誤像下面... ERROR cluster.YarnScheduler: Lost executor 12 on compute-2-10.local: Container killed by YARN for exceeding memory limits. 1.5 GB of 1.5 GB physical memor

0熱度

1回答

蜂巢表中的Spark流是可能的嗎？

我有一個用例我們的Java框架，從室壁運動分析實時數據蜂巢表中每半小時一班。我需要訪問這個配置表格，並做一些接近實時的處理。一小時延遲是好的，因爲我沒有權限訪問Kinesis流。一旦處理完成在spark（pyspark優先），我必須創建一個新的kinesys流並推送數據。然後，我將使用Splunk並將其拉近實時。問題是，任何人使用python完成從蜂巢的火花流？我必須做一個POC，然後做

0熱度

1回答

PySpark和斯卡拉

我希望我不會得到這個問題的反對票。這是令人困惑的多個火花版本，所以讓我反問。請注意，這個問題純粹是從性能角度和而不是開發人員的生產力/技能角度。我是新來的火花，許多人想知道2017年的最新狀況。我知道與python的JIT問題，這不是問題在這裏。這純粹來自PySpark的角度。我仍然無法相比，使用火花API從斯卡拉直接（或如果在所有它是虛假的陳述）時，爲什麼PySpark據報道聽不進去。基於我

0熱度

1回答

如何將Spark Dataframe中的列從矢量轉換爲集合？

我需要處理一個數據集來識別頻繁項目集。所以輸入欄必須是一個向量。原來列是由逗號分隔的項目的字符串，所以我做了以下： functions.split(out_1['skills'], ',') 的問題是在skills的，對於一些行，我已經重複值，並試圖當這是造成錯誤識別頻繁項目集。我想在矢量轉換成一組去除重複的元素。事情是這樣的： functions.to_set(functions.spli