1
我有兩個DataFrame,每個DataFrame都保存在實木複合地板文件中。我需要通過唯一的增量「id」列來連接這兩個DF。 我可以在ID列創建索引,以便他們可以更快地加入?這裏是代碼我可以索引實木複合地板文件中的一列,以便使用Spark更快地加入它。
// First DF which contain a few thousands items
val dfExamples = sqlContext.parquetFile("file:///c:/temp/docVectors.parquet")
// Second DF which contains 10 million items
val dfDocVectors = sqlContext.parquetFile(docVectorsParquet) // DataFrame of (id, vector)
dfExamples.join(dfDocVectors, dfExamples("id") === dfDocVectors("id")).select(dfDocVectors("id"),
dfDocVectors("vector"), dfExamples("cat"))
我需要多次執行此類連接。爲了加快連接,我可以創建索引 實木複合地板文件中的「id」列,就像我可以對數據庫表做什麼?