apache-spark

    0熱度

    4回答

    我試圖在模式下提交python spark應用程序模式。 Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--

    0熱度

    1回答

    Spark數據幀df的每一行在列rawFV中包含製表符分隔的字符串。我已經知道在選項卡上分割將產生所有行的array of 3 strings。這可以通過驗證: df.map(row => row.getAs[String]("rawFV").split("\t").length != 3).filter(identity).count() ,並確保計數確實0。 我的問題是:如何使用管道API

    1熱度

    1回答

    我正在爲Spark Streaming編寫單元測試。爲此我試圖拉動測試瓶。但我不能拉一罐我生成具有以下配置: libraryDependencies += "org.apache.spark" %% "spark-streaming" % "1.4.1" % "test" classifier % "tests" 我得到錯誤說: 「;」預期但發現字符串文字。 如何拉入測試罐?

    0熱度

    1回答

    我已經設置了一個測試Cassandra + Spark集羣。我能夠從火花成功查詢卡珊德拉,如果我做到以下幾點: import org.apache.spark.sql.cassandra.CassandraSQLContext import import sqlContext.implicits._ val cc = new CassandraSQLContext(sc) val dataf

    1熱度

    1回答

    我對Scala相當陌生,並且正在嘗試構建Spark作業。我已經構建了一個包含DataStax連接器的工作並將其組裝成一個胖罐子。當我嘗試執行它時,它會失敗,出現java.lang.NoSuchMethodError。我已經打開了JAR,可以看到包含DataStax庫。我錯過了明顯的東西嗎?有沒有一個很好的教程來看待這個過程? 感謝 控制檯 $火花提交--class org.bobbrez.CasC

    0熱度

    3回答

    我已經設置了一個三節點spark集羣,該集羣也用作hadoop集羣。 主/ worker1也namenode的/ datanode1 worker2也datanode2 worker3也datanode3 節點都具有私有IP地址的虛擬機,但我也創建了一個靜態IP地址爲他們。 私有IP:192.168.0.4 - 靜態ip:xxx117 私有IP:192.168.0.7 - 靜態ip:xxx118

    1熱度

    1回答

    我想讓每個python工作人員使用rpy2啓動R shell。我可以在某種設置階段執行此操作,類似於當您導入用於稍後執行程序任務的Python模塊時會發生這種情況嗎?例如: import numpy as np df.mapPartitions(lambda x: np.zeros(x)) 在我來說,我要開始,而不是在每個執行人及進口[R庫的R外殼,這將是這個樣子: import rpy2

    1熱度

    1回答

    的文件是什麼文件系統說,任何Hadoop的API兼容的文件系統(HDFS一樣,S3)可以用作檢查點目錄。 我的問題是,除了HDFS和S3什麼是火花流媒體使用卡夫卡和卡桑德拉應用等實用的替代品。 感謝

    2熱度

    1回答

    我有一個RDD[(String, (Iterable[Int], Iterable[Coordinate]))] 我想什麼做的,就是要打破Iterable[Int]到元組,每一個會像(String,Int,Iterable[Coordinate]) 舉一個例子,我想變換: ('a',<1,2,3>,<(45.34,32.33),(45.36,32.34)>) ('b',<1>,<(46.64,3

    4熱度

    3回答

    我使用下面的腳本來提取HH:MM:SS從YYYY-MM-DD HH:MM:SS日期格式 import java.sql.Time case class Transactions(creationTime: Time) val formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss") def parseTransac(line: St