graphframes

1熱度

1回答

我花了差不多2天時間瀏覽互聯網，但無法解決這個問題。我試圖安裝graphframes package（版本：0.2.0-spark2.0-s_2.11）通過PyCharm以spark運行，但儘管我盡了最大的努力，但這是不可能的。我已經嘗試了幾乎所有的東西。請知道我在查看答案之前也查看了本網站here。這裏是我試圖運行的代碼： # IMPORT OTHER LIBS --------------

3熱度

1回答

將PyFark中的GraphFrames ShortestPath映射轉換爲DataFrame行

我試圖找到從GraphFrames函數shortestPath中獲取Map輸出的最有效方式，並將每個頂點的距離映射平鋪到新DataFrame中的各個行中。我已經能夠非常笨拙地將distance列拖到字典中，然後從那裏轉換成熊貓數據框，然後轉換回Spark數據框，但我知道必須有更好的方法。 from graphframes import * v = sqlContext.createDataFr

4熱度

1回答

如何處理Apache Spark中羣集節點之間獨立處理的不同圖形文件？

可以說我有大量的圖形文件，每個圖形都有大約500K的邊緣。我一直在Apache Spark上處理這些圖形文件，我想知道如何高效地並行化整個圖形處理工作。因爲現在，每個圖形文件都是獨立的，我正在尋找與文件並行的方式。因此，如果我有100個圖形文件，而且有20個節點羣集，我可以處理每個節點上的每個文件，因此每個節點將處理5個文件。現在，發生的事情就像單個圖正在處理多個階段，這導致了很多混洗。 grap

1熱度

1回答

如何編寫一個轉換函數來轉換參照Graphframe對象的RDD？

我有一個Graphframe對象：g和a RDD對象：候選： g = GraphFrame(v,e) candidates_rdd.collect() # [Row(source=u'a', target=u'b'), # Row(source=u'a', target=u'c'), # Row(source=u'e', target=u'a')] 欲計算路徑從「源」在candidat

0熱度

2回答

如何在HDInsight羣集中使用SPARK內的圖框

我在HDInsight上設置了一個SPARK羣集，並試圖使用GraphFrames使用this tutorial。我已經在羣集創建過程中使用了自定義腳本，以便在此處描述啓用火花羣集上的GraphX。當我運行記事本， import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.graphf

0熱度

1回答

java.lang.OutOfMemoryError相關星火Graphframe BFS

後，我打電話BFS 20+次以這種方式出現的OutOfMemoryError： list_locals = [] #g is the graphframe with > 3 million nodes and > 15 million edges. def fn(row): arg1 = "id = '%s'" %row.arg1 arg2 = "id = '%s'" %

2熱度

4回答

導入PySpark包

我已經下載了graphframes包（從here）並將其保存到本地磁盤上。現在，我想使用它。所以，我用下面的命令： IPYTHON_OPTS="notebook --no-browser" pyspark --num-executors=4 --name gorelikboris_notebook_1 --py-files ~/temp/graphframes-0.1.0-spark1.5.jar

0熱度

1回答

GraphFrames api是否支持創建Bipartite圖形？

GraphFrames api是否支持在當前版本中創建Bipartite圖形？當前版本：0.1.0 星火版本：1.6.1

2熱度

2回答

PySpark GraphFrame的正確子圖

graphframes是基於PySpark DataFrame的網絡分析工具。以下代碼是教程subgraphing例的修改後的版本： from graphframes.examples import Graphs import graphframes g = Graphs(sqlContext).friends() # Get example graph # Select subgraph