apache-spark

    3熱度

    1回答

    我正在按照IBM Bluemix教程嘗試從雲數據庫剛剛創建的數據庫中提取數據。我正在使用ipython筆記本。 我有試圖連接到數據庫時的錯誤 教程如下: https://developer.ibm.com/clouddataservices/docs/spark/get-started/use-python-notebook-to-load-cloudant-data-into-spark/ 我已

    2熱度

    1回答

    1.我的問題。 我在4節點spark集羣中運行wordCount程序。程序的輸入是本地文件系統文件。我知道我應該將文件分發給所有工作節點(在我的情況下,quad102是主節點,quad103-quad105是從節點,所以文件應該存在於這些從節點中的相同路徑中,並且我確信我不會使quad102作爲奴隸)根據這個問題的答案Spark: how to use SparkContext.textFile

    -2熱度

    1回答

    我有由兩個列movieid的數據幀,並應用到電影中的標籤在下面的格式 - movieid tag 1 animation 1 pixar 1 animation 2 comedy 我想指望每個計算每部電影的標籤頻率電影ID每個標籤應用了多少次,還想計算應用於每部電影的標籤總數。我是新來的火

    1熱度

    1回答

    我有一個RDF圖(link)與元組(s,p,o),我做了一個屬性圖。 val propGraph = Graph(vertexArray,edgeArray).cache() propGraph.triplets.foreach(println(_)) 與如下輸出: 和RDF數據爲: ((0,<http://umkc.edu/xPropGraph#franklin>),(1,http://u

    3熱度

    2回答

    有一個矩陣,我想用矢量執行它的點積。以下是Scala代碼: val matrix = sc.parallelize(List( (("v1","v1"),2),(("v1","v2"),4),(("v1","v3"),1),(("v2","v2"),5), (("v2","v3"),1),(("v3","v3"),2))) val vector = sc.paralleliz

    -1熱度

    1回答

    掙扎着「ValueError:太多的值來解壓縮」的錯誤,而運行代碼下面,意圖是建立每個鍵的值的直方圖: %pyspark import datetime from pyspark.sql import SQLContext, Row def featVecSms(x): sttm = datetime.datetime.strptime(x[1], '%Y%m%dT%H%M%S

    -2熱度

    1回答

    我是新來的Spark和StackOverFlow社區的編程人員。嘗試在Cloudera QuickStart VM中使用Spark獲取數據的子集。在所附的快照,你會看到20條記錄使用代碼的輸出: channel_views.take(20) 這裏,channel_views是一個包含幾百個記錄的RDD。我試圖只包含那些包含單詞'XYZ'的特定記錄和相應的數值。我如何實現這一目標? 在此先感謝。

    0熱度

    1回答

    我在Cloudera QuickStart VM中使用Spark控制檯。在下面你採樣輸出將看到使用的代碼獲得的兩列數據: channel_views.filter(lambda x: "XYZ" == x[1]).take(10) 的目標是使其顯示只是一個獨特的「XYZ」,所有的相應金額的線摺疊此數據集與「XYZ」有關的數字。我們如何獲得這個? 輸出示例: [(1038, u'XYZ'),

    3熱度

    1回答

    我設置ParallelGCThreads=1和使用G1GC,所有其他JVM設置是默認設置。我在Spark-1.5.1上運行PageRank,每個EC2節點有100 GB堆。 我的堆使用圖如下(紅色區域:年輕一代,黑色區域:舊一代)。所有年輕的GC都很小,突然之間有一個年輕的GC收集了60 GB,然後年輕的GC再次變小。我的GC日誌顯示沒有混合的GC,沒有完整的GC,一個併發標記和數十個年輕GC。我

    0熱度

    3回答

    我在Cloudera QuickStart VM中使用Spark控制檯。 下面提供了一個輸出文件。它顯示前20條記錄。每條記錄都是電視頻道名稱和其相應觀衆人數的組合。有幾百個記錄。 目標是將此RDD(channel_views)按電視頻道名稱分組,以便每條記錄都是電視頻道名稱的唯一顯示以及其相應的觀看次數總和。 channel_views = joined_dataset.map(extract_