spark-graphx

0熱度

1回答

我在Spark（v2.1.1）中有一個包含分層數據的3列（如下所示）的數據集。我的目標的目標是增量編號分配給基礎上，父子層次的每一行。從圖形上可以說，分層數據是一個樹的集合。根據下表，我已經有基於'Global_ID'分組的行。現在我想以的增量順序生成'Value'列，但是基於 'Parent'和'Child'列的數據層次結構。表格表示（數值是所需的輸出）： +-----------+--

0熱度

1回答

Scala-Spark：將數據幀轉換爲RDD [Edge]

0熱度

1回答

有效計算pyspark中的連接組件

我正在嘗試在城市中找到朋友的連接組件。我的數據是具有城市屬性的邊緣列表。城市| SRC | DEST 火箭的凱爾 - >尼休斯敦班尼 - >查爾斯休斯頓查爾斯 - >丹尼奧馬哈卡羅爾 - >布賴恩等我知道pyspark的GraphX庫的connectedComponents函數將遍歷圖的所有邊以找到連接的組件，並且我想避免這一點。我會怎麼做？編輯：我想我可以做這樣的事情，從數據幀

1熱度

1回答

如何檢查Spark Graphx圖形中是否存在邊緣

我有一個Spark Graphx圖形，我想檢查兩個頂點之間是否存在邊。在Spark Graphx中執行此操作的首選方法是什麼？更具體地說，我想計算一個列表中所有頂點之間的所有邊到另一個列表中的所有頂點。我嘗試這樣做： graph.edges.filter { case Edge(src, dst, prop) => ids1.contains(src)&&ids2.contains(dst)

0熱度

1回答

Scala - Spark：從特定節點返回頂點屬性

我有一個圖形，我想計算最大度數。特別是具有最大程度的頂點我想知道所有屬性。這是代碼片段： def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = { if (a._2 > b._2) a else b } val maxDegrees : (VertexId, Int) = graphX.degrees

2熱度

1回答

Scala - Spark GraphX：運行Pregel運算符的調試代碼

我想用我的定製邏輯對我的graphX網絡上的Pregel運算符執行vprog，sendMsg和mergeMsg，但結果是錯誤的。那麼，我該如何調試呢？我不想發佈代碼，但只是知道如何進行調試，也許從您的提示中學習。

0熱度

1回答

在Spark中使用Windows函數的每週聚合

我有從2017年1月1日開始到2017年1月7日的數據，這是一週需要的每週聚合。我在下面的方式使用窗函數 val df_v_3 = df_v_2.groupBy(window(col("DateTime"), "7 day")) .agg(sum("Value") as "aggregate_sum") .select("window.start", "window.end

1熱度

1回答

斯卡拉寫圖中的每個節點的鄰接表到一個文本文件

我試圖扭轉向圖以及每個頂點的鄰接表寫入一個文本文件中的格式 NodeId \t NeighbourId1,NeighbourId2,...,NeighbourIdn 所以到目前爲止，我只嘗試了打印我的輸出是如下： (4,[[email protected]) (0,[[email protected]) (1,[[email protected]) (3,[[email protecte

0熱度

1回答

爲什麼使用Spark GraphX的sbt update會導致「Cross-version suffixes衝突」？

這是我爲SBT與斯卡拉火花上的IntelliJ version := "0.1" scalaVersion := "2.11.11" // https://mvnrepository.com/artifact/org.apache.spark/spark-graphx_2.10 libraryDependencies += "org.apache.spark" % "spark-grap

1熱度

1回答

如何在整數類型的Spark中生成一個GUID ID列

我知道我可以做UUID.randomUUID.toString來爲我的Dataset中的每一行附加一個ID，但是我需要這個ID是一個Long，因爲我想使用GraphX。我如何在Spark中做到這一點？我知道Spark有monotonically_increasing_id()，但那僅適用於DataFrame API - 數據集的情況如何？