spark-graphx

    0熱度

    1回答

    我在Spark(v2.1.1)中有一個包含分層數據的3列(如下所示)的數據集。 我的目標的目標是增量編號分配給基礎上,父子層次的每一行。從圖形上可以說,分層數據是一個樹的集合。 根據下表,我已經有基於'Global_ID'分組的行。現在我想以 的增量順序生成'Value'列,但是基於 'Parent'和'Child'列的數據層次結構。 表格表示(數值是所需的輸出): +-----------+--

    0熱度

    1回答

    我有一個數據框表示圖的邊;這是模式: root |-- src: string (nullable = true) |-- dst: string (nullable = true) |-- relationship: struct (nullable = false) | |-- business_id: string (nullable = true)

    0熱度

    1回答

    我正在嘗試在城市中找到朋友的連接組件。我的數據是具有城市屬性的邊緣列表。 城市| SRC | DEST 火箭的凱爾 - >尼 休斯敦班尼 - >查爾斯 休斯頓查爾斯 - >丹尼 奧馬哈卡羅爾 - >布賴恩 等 我知道pyspark的GraphX庫的connectedComponents函數將遍歷圖的所有邊以找到連接的組件,並且我想避免這一點。我會怎麼做? 編輯: 我想我可以做這樣的事情,從數據幀

    1熱度

    1回答

    我有一個Spark Graphx圖形,我想檢查兩個頂點之間是否存在邊。 在Spark Graphx中執行此操作的首選方法是什麼? 更具體地說,我想計算一個列表中所有頂點之間的所有邊到另一個列表中的所有頂點。 我嘗試這樣做: graph.edges.filter { case Edge(src, dst, prop) => ids1.contains(src)&&ids2.contains(dst)

    0熱度

    1回答

    我有一個圖形,我想計算最大度數。特別是具有最大程度的頂點我想知道所有屬性。 這是代碼片段: def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = { if (a._2 > b._2) a else b } val maxDegrees : (VertexId, Int) = graphX.degrees

    2熱度

    1回答

    我想用我的定製邏輯對我的graphX網絡上的Pregel運算符執行vprog,sendMsg和mergeMsg,但結果是錯誤的。那麼,我該如何調試呢? 我不想發佈代碼,但只是知道如何進行調試,也許從您的提示中學習。

    0熱度

    1回答

    我有從2017年1月1日開始到2017年1月7日的數據,這是一週需要的每週聚合。我在下面的方式使用窗函數 val df_v_3 = df_v_2.groupBy(window(col("DateTime"), "7 day")) .agg(sum("Value") as "aggregate_sum") .select("window.start", "window.end

    1熱度

    1回答

    我試圖扭轉向圖以及每個頂點的鄰接表寫入一個文本文件中的格式 NodeId \t NeighbourId1,NeighbourId2,...,NeighbourIdn 所以到目前爲止,我只嘗試了打印我的輸出是如下: (4,[[email protected]) (0,[[email protected]) (1,[[email protected]) (3,[[email protecte

    0熱度

    1回答

    這是我爲SBT與斯卡拉火花上的IntelliJ version := "0.1" scalaVersion := "2.11.11" // https://mvnrepository.com/artifact/org.apache.spark/spark-graphx_2.10 libraryDependencies += "org.apache.spark" % "spark-grap

    1熱度

    1回答

    我知道我可以做UUID.randomUUID.toString來爲我的Dataset中的每一行附加一個ID,但是我需要這個ID是一個Long,因爲我想使用GraphX。我如何在Spark中做到這一點?我知道Spark有monotonically_increasing_id(),但那僅適用於DataFrame API - 數據集的情況如何?