spark-graphx

    0熱度

    1回答

    我被一個教程 http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html 而在一些點上運行,我們使用mapReduceTriplets操作。這將返回預期的結果 // Find the oldest follower for each user val oldestFollower: Verte

    0熱度

    1回答

    它擴展了Edge,它是一個case類,但EdgeTriplet不是,它不實現unapply。我想知道是否有辦法進行模式匹配,例如 t:EdgeTriplet[Foo,Bar] match { case EdgeTriplet(src, dst, edgeAttr) => ... }

    0熱度

    1回答

    的Spark Graphx紙提到CSR索引在以下上下文: 在圖表 處理系統的上下文中開發作爲加入的優化(例如,CSR索引,加入 消除,並加入現場GraphX重鑄系統優化規範)並物化視圖維護 (例如,頂點鏡像和增量更新) 然而,當我GOOGLE爲 CSR indexing join optimization 個 結果均與 Corporate Social Responsibility. 現在

    2熱度

    3回答

    我想從另一個RDD中減去RDD。我查看了文檔,發現subtract可以做到這一點。實際上,當我測試subtract時,最終的RDD保持不變,值不會被刪除! 有沒有其他功能可以做到這一點?或者我錯誤地使用了subtract? 這裏是我使用的代碼: val vertexRDD: org.apache.spark.rdd.RDD[(VertexId, Array[Int])] val clusters

    1熱度

    1回答

    我正在使用spark 1.4.0和graphx,我的圖形邊緣存儲在文件中,我使用以下代碼行 將它們存儲在RDD中。我想用EdgeRDD代替RDD [邊緣[字符串] val edges: RDD[Edge[String]] = edge_file.map(line => {val x = line.split("\\s+") Edge(x(0).toLong, x(1).toLong, " ");

    0熱度

    1回答

    我想了解如何使用Spark-GraphX,但始終存在一些問題,所以也許有人可以建議我讀什麼等。我試着閱讀Spark文檔和學習Spark - O'Reilly Media的書,但找不到任何解釋我們需要多少內存來處理不同大小的網絡等。 對於我的測試,我使用了幾個示例數據集。 I 1個主節點(〜16GB的RAM)從火花殼運行它們: ./bin/spark-shell --master spark://1

    2熱度

    1回答

    我知道在GraphX中我們可以合併兩個圖來更新一個現有的網絡,例如...... 但是,作爲更新網絡的常用操作,在其中插入一個單節點節點。 怎麼能在GraphX中做這樣的更新操作?! 謝謝!

    3熱度

    1回答

    我是Spark和GraphX的新手。到目前爲止,我一直在使用Titan DB(HBase存儲)和Giraph進行處理。 我有一個需要約30億頂點和約50億邊的圖。什麼是存儲圖形的最佳方式(通過添加頂點和邊來從頭開始創建圖形,另外我想從泰坦API移出來創建圖形)。我無法找到任何關於此的直接文檔。你能告訴我什麼是使用GraphX和商品硬件創建/存儲我的圖形和過程的最佳方式? 謝謝。

    2熱度

    3回答

    這個問題是關於Spark GraphX的。我想通過刪除某些其他節點的鄰居節點來計算子圖。 例 [任務]保留不屬於C2的節點的鄰居節點甲和B節點。 輸入圖: ┌────┐ ┌─────│ A │──────┐ │ └────┘ │ v v ┌────┐ ┌────┐ ┌────┐ ┌────┐ │ C1 │────>│