pyspark

    0熱度

    1回答

    我試圖在第一列作爲關鍵字執行兩個RDD之間的連接。該RDDS樣子: RDD1: (k1,(s11,s12,s13)) (k2,(s21,s22,s23)) (k3,(s31,s32,s33)) ... RDD2: (k1,(t11,t12,t13)) (k2,(t21,t22,t23)) (k4,(t41,t42,t43)) ... 文從一個RDD可能或不可能找到另外一個匹

    -1熱度

    2回答

    Pyspark n00b ...我如何用自己的子字符串替換列?我試圖從字符串的開頭和結尾刪除選定數量的字符。 from pyspark.sql.functions import substring import pandas as pd pdf = pd.DataFrame({'COLUMN_NAME':['_string_','_another string_']}) # this is

    0熱度

    1回答

    我將要計算兩個向量的PySpark餘弦相似性,像 1 - spatial.distance.cosine(xvec, yvec) 但SciPy的似乎不支持pyspark.ml.linalg.Vector類型。

    1熱度

    1回答

    我需要導入大型數據集併合並它們。我知道其他類似的問題,但我找不到針對我的問題的答案。看起來,dask我能夠將大型數據集讀入數據幀,但我無法將其與另一個數據幀合併。 import dask.dataframe as dd import pandas as pd #I have to do this with dask since with pandas I get mem issue and

    0熱度

    1回答

    我有一個數據集,其中包含工人與他們的人口統計信息,如年齡性別,地址等及其工作地點。我從數據集創建了一個RDD並將其轉換爲DataFrame。 每個ID有多個條目。因此,我創建了一個DataFrame,其中只包含工作人員的ID和他/她工作的各個辦公地點。 |----------|----------------| | **ID** **Office_Loc** | |------

    0熱度

    1回答

    我有這樣的RDD: [('anger', 166), ('lyon', 193), ('marseilles_1', 284), ('nice', 203), ('paris_2', 642), ('paris_3', 330), ('troyes', 214), ('marseilles_2', 231), ('nantes', 207), ('orlean', 196),

    1熱度

    1回答

    初學者ES問題 什麼是工作流程或步驟用於推動星火據幀到彈性搜索? 從研究,我相信我需要使用spark.newAPIHadoopFile()方法。 然而,通過Elastic Search Documentation挖掘和other Stack Q/A's我還是有點困惑的論點所需要的格式是爲什麼 請注意,我用pyspark,這是一個新的表ES(無索引已經存在),並且df是5列(2種類型,2層長的類型,

    0熱度

    1回答

    美好的一天。 我正在運行解析某些日誌文件的開發代碼。如果我試圖解析較少的文件,我的代碼將運行平穩。但是當我增加需要解析的日誌文件的數量時,它會返回不同的錯誤,如too many open files和Total size of serialized results of tasks is bigger than spark.driver.maxResultSize。 我試圖增加spark.driv

    0熱度

    1回答

    有兩種RDDS,第一個是一個(鍵,值)對rdd_1: key1,[value1, value2] 第二個也是(鍵,值)對rdd_2: (key2, value3), (key3, value4)... 我想加盟rdd1和rdd2和rdd_1的value1 & value2爲的。我需要的結果是 key1, [value1: value3, value2: value4] 我可以處理rdd

    1熱度

    1回答

    我有一個巨大的數據框(500萬行),每行是一籃子項目,我試圖獲得頻繁的項目集和關聯規則。但它給了我StackOverflowErrors,我試圖設置檢查點目錄,但它沒有解決問題。任何想法如何解決這個問題?非常感謝提前 fpGrowth = FPGrowth(itemsCol="ARFeatures", minSupport=0.8, minConfidence=0.9) model = fpG