pyspark

0熱度

1回答

我試圖在第一列作爲關鍵字執行兩個RDD之間的連接。該RDDS樣子： RDD1: (k1,(s11,s12,s13)) (k2,(s21,s22,s23)) (k3,(s31,s32,s33)) ... RDD2: (k1,(t11,t12,t13)) (k2,(t21,t22,t23)) (k4,(t41,t42,t43)) ... 文從一個RDD可能或不可能找到另外一個匹

-1熱度

2回答

Pyspark alter column with substring

Pyspark n00b ...我如何用自己的子字符串替換列？我試圖從字符串的開頭和結尾刪除選定數量的字符。 from pyspark.sql.functions import substring import pandas as pd pdf = pd.DataFrame({'COLUMN_NAME':['_string_','_another string_']}) # this is

0熱度

1回答

如何計算PySpark中兩個向量的餘弦相似度？

我將要計算兩個向量的PySpark餘弦相似性，像 1 - spatial.distance.cosine(xvec, yvec) 但SciPy的似乎不支持pyspark.ml.linalg.Vector類型。

1熱度

1回答

Python - 合併從csv文件導入的Dask數據框

我需要導入大型數據集併合並它們。我知道其他類似的問題，但我找不到針對我的問題的答案。看起來，dask我能夠將大型數據集讀入數據幀，但我無法將其與另一個數據幀合併。 import dask.dataframe as dd import pandas as pd #I have to do this with dask since with pandas I get mem issue and

0熱度

1回答

計算pyspark中數據框的所有行之間的餘弦相似度

我有一個數據集，其中包含工人與他們的人口統計信息，如年齡性別，地址等及其工作地點。我從數據集創建了一個RDD並將其轉換爲DataFrame。每個ID有多個條目。因此，我創建了一個DataFrame，其中只包含工作人員的ID和他/她工作的各個辦公地點。 |----------|----------------| | **ID** **Office_Loc** | |------

0熱度

1回答

加入特定行的RDD

我有這樣的RDD： [('anger', 166), ('lyon', 193), ('marseilles_1', 284), ('nice', 203), ('paris_2', 642), ('paris_3', 330), ('troyes', 214), ('marseilles_2', 231), ('nantes', 207), ('orlean', 196),

1熱度

1回答

如何把一個Spark數據幀到彈性搜索（Pyspark）這裏

初學者ES問題什麼是工作流程或步驟用於推動星火據幀到彈性搜索？從研究，我相信我需要使用spark.newAPIHadoopFile()方法。然而，通過Elastic Search Documentation挖掘和other Stack Q/A's我還是有點困惑的論點所需要的格式是爲什麼請注意，我用pyspark，這是一個新的表ES（無索引已經存在），並且df是5列（2種類型，2層長的類型，

0熱度

1回答

任務的序列化結果的總大小大於spark.driver.maxResultSize

美好的一天。我正在運行解析某些日誌文件的開發代碼。如果我試圖解析較少的文件，我的代碼將運行平穩。但是當我增加需要解析的日誌文件的數量時，它會返回不同的錯誤，如too many open files和Total size of serialized results of tasks is bigger than spark.driver.maxResultSize。我試圖增加spark.driv

0熱度

1回答

加入2個RDDS在火花其中第一RDD的值是第二RDD的鍵

有兩種RDDS，第一個是一個（鍵，值）對rdd_1： key1,[value1, value2] 第二個也是（鍵，值）對rdd_2： (key2, value3), (key3, value4)... 我想加盟rdd1和rdd2和rdd_1的value1 & value2爲的。我需要的結果是 key1, [value1: value3, value2: value4] 我可以處理rdd

1熱度

1回答

Pyspark - fpgrowth - 關聯規則 - StackOverflow錯誤

我有一個巨大的數據框（500萬行），每行是一籃子項目，我試圖獲得頻繁的項目集和關聯規則。但它給了我StackOverflowErrors，我試圖設置檢查點目錄，但它沒有解決問題。任何想法如何解決這個問題？非常感謝提前 fpGrowth = FPGrowth(itemsCol="ARFeatures", minSupport=0.8, minConfidence=0.9) model = fpG