spark-graphx

    1熱度

    1回答

    我嘗試運行用hdfs在YARN羣集上的Scala中編寫的Spark/Graphx程序。該集羣有16個節點,每個節點16GB RAM和2TB HD。我想要的是加載一個3.29GB無向圖使用edgeListFile功能(稱爲orkutUndirected.txt),由GraphX庫提供: : import org.apache.spark.SparkContext import org.apache

    2熱度

    1回答

    我有一個非常大的圖。節點之間有鏈接。最初每個邊都有重量1。我必須根據變換後的鄰接矩陣更新邊的權重。 其中A是Adjcency矩陣。節點(i,j)中的新權重將由M(i,j)給出。 我必須在Graphx中執行此操作。我如何做到這一點? 我的方法:找到每個節點的所有相鄰節點,並在內部加入them.in對。然後更新每個節點的權重。 但我對在Graphx中編寫高效的代碼感到困惑。 我該怎麼做呢?代碼捕捉是贊

    0熱度

    1回答

    數組我有對象的這樣 edges: Array[Array[(Long, Long, String)]] = Array(Array((-209215114,197853780,Investor), (-209215114,-322475625,Investor), ... 一個數組,我想將其轉換爲邊的一個數組來傳遞給圖形生成器。這裏是我使用的是什麼: val eRDD: RDD[Edge[(V

    1熱度

    1回答

    所以我對GraphX的pagerank實現有點困惑。 https://github.com/apache/spark/blob/feaa07802203b79f454454445c0a12a2784ccfeb/graphx/src/main/scala/org/apache/spark/graphx/lib/PageRank.scala#L115-L160 特別地,線#138,https://gi

    0熱度

    1回答

    我認爲有可能是一個簡單的解決這個,如果有人知道如何遍歷基於文件名的一組文件和輸出值的我想知道在斯卡拉創造價值,通過文件迭代。 我的問題是,我想在一組每個月圖中邊閱讀,然後創建一個單獨的月度圖表。 目前我這個做了很長的路要走,這是罰款,做一年價值,但我想一個方法來自動執行它。 你可以看到我的代碼,低於該希望清楚地表明我在做什麼。 //Load vertex data val vertices= (

    0熱度

    2回答

    我在HDInsight上設置了一個SPARK羣集,並試圖使用GraphFrames使用this tutorial。 我已經在羣集創建過程中使用了自定義腳本,以便在此處描述啓用火花羣集上的GraphX。 當我運行記事本, import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.graphf

    1熱度

    1回答

    我正在檢查將Spark GraphX圖導出到Titan圖形數據庫的可行性。 ***Used below code to construct graph in Spark GraphX and writing graph to a json file :*** val conf = new SparkConf() val sc = new SparkContext(

    -2熱度

    1回答

    我看到很多使用數組創建頂點的示例,然後並行化它以使其成爲RDD,但是如果我有大量數據,那麼我將如何處理它?我不認爲我可以創建一個包含100萬行頂點的數組。 還有一個帖子,Spark GraphX - How can I read from a JSON file in Spark and create a graph from the data?,也建議使用數組,如果我錯了,糾正我,但我不認爲它會

    3熱度

    1回答

    沒有有效的構造這是我的代碼: class FNNode(val name: String) case class Ingredient(override val name: String, category: String) extends FNNode(name) val ingredients: RDD[(VertexId, FNNode)] = sc.textFile(PATH+

    1熱度

    1回答

    我有一個圖形[Int,Int],其中每個邊都有一個權重值。我想要做的是,爲每個用戶,收集所有的邊緣和總結相關的重量。 說的數據是這樣的: import org.apache.spark.graphx._ val sc: SparkContext // Create an RDD for the vertices val users: RDD[(VertexId,