graphframes

    1熱度

    1回答

    我花了差不多2天時間瀏覽互聯網,但無法解決這個問題。我試圖安裝graphframes package(版本:0.2.0-spark2.0-s_2.11)通過PyCharm以spark運行,但儘管我盡了最大的努力,但這是不可能的。 我已經嘗試了幾乎所有的東西。請知道我在查看答案之前也查看了本網站here。 這裏是我試圖運行的代碼: # IMPORT OTHER LIBS --------------

    3熱度

    1回答

    我試圖找到從GraphFrames函數shortestPath中獲取Map輸出的最有效方式,並將每個頂點的距離映射平鋪到新DataFrame中的各個行中。我已經能夠非常笨拙地將distance列拖到字典中,然後從那裏轉換成熊貓數據框,然後轉換回Spark數據框,但我知道必須有更好的方法。 from graphframes import * v = sqlContext.createDataFr

    4熱度

    1回答

    可以說我有大量的圖形文件,每個圖形都有大約500K的邊緣。我一直在Apache Spark上處理這些圖形文件,我想知道如何高效地並行化整個圖形處理工作。因爲現在,每個圖形文件都是獨立的,我正在尋找與文件並行的方式。因此,如果我有100個圖形文件,而且有20個節點羣集,我可以處理每個節點上的每個文件,因此每個節點將處理5個文件。現在,發生的事情就像單個圖正在處理多個階段,這導致了很多混洗。 grap

    1熱度

    1回答

    我有一個Graphframe對象:g和a RDD對象:候選: g = GraphFrame(v,e) candidates_rdd.collect() # [Row(source=u'a', target=u'b'), # Row(source=u'a', target=u'c'), # Row(source=u'e', target=u'a')] 欲計算路徑從「源」在candidat

    0熱度

    2回答

    我在HDInsight上設置了一個SPARK羣集,並試圖使用GraphFrames使用this tutorial。 我已經在羣集創建過程中使用了自定義腳本,以便在此處描述啓用火花羣集上的GraphX。 當我運行記事本, import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.graphf

    0熱度

    1回答

    後,我打電話BFS 20+次以這種方式出現的OutOfMemoryError: list_locals = [] #g is the graphframe with > 3 million nodes and > 15 million edges. def fn(row): arg1 = "id = '%s'" %row.arg1 arg2 = "id = '%s'" %

    2熱度

    4回答

    我已經下載了graphframes包(從here)並將其保存到本地磁盤上。現在,我想使用它。所以,我用下面的命令: IPYTHON_OPTS="notebook --no-browser" pyspark --num-executors=4 --name gorelikboris_notebook_1 --py-files ~/temp/graphframes-0.1.0-spark1.5.jar

    0熱度

    1回答

    GraphFrames api是否支持在當前版本中創建Bipartite圖形? 當前版本:0.1.0 星火版本:1.6.1

    2熱度

    2回答

    graphframes是基於PySpark DataFrame的網絡分析工具。以下代碼是教程subgraphing例的修改後的版本: from graphframes.examples import Graphs import graphframes g = Graphs(sqlContext).friends() # Get example graph # Select subgraph