parquet

1熱度

1回答

首先讓我介紹一下我的使用情況下，我每天收到500萬行，像這樣： ID |分類 1 | cat1，cat2，cat3，...，catn 2 | CAT1，CATX，卡蒂，...，anothercategory 輸入數據：50壓縮CSV文件，每個文件是250 MB - >總計：12.5 GB的壓縮目的是要回答這樣的問題：發現屬於所有ID來CATX和卡蒂，找到屬於CAT3 ID和不CATY等...：即

0熱度

1回答

更新取決於它自己的數據的鑲木地板文件的最佳方式

我有一個鑲木地板文件，其中我存儲了許多用戶的指標。直到現在我已經完整地重新計算了這個文件，但是計算很複雜，所以我只想覆蓋特定的列。有兩種方法：添加新行將列因此，例如，添加新行的時候，我想要做這樣的事情： df_old = sqlContext.read.parquet(myfile) df_new = df_other_src.select(...) df_new = df_old.

1熱度

2回答

火花陷落柱值dataframes

我有2個DataFrames case class UserTransactions(id: Long, transactionDate: java.sql.Date, currencyUsed: String, value: Long) ID, TransactionDate, CurrencyUsed, value 1, 2016-01-05, USD, 100 1, 2016-01-

0熱度

1回答

爲什麼Impala在Spark SQL寫入後無法讀取實地標文件？

Spark解釋實木複合地板的方式存在一些問題。我有確認模式（df.schema（）方法）一個Oracle源： root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- LM_BIRTHDATE: timestamp (nullable = true) |-- LM_COMM_METHOD: string (

1熱度

2回答

如何使用scala/spark正確迭代/打印拼花地板？

如何在spark/scala中打印包含對象嵌套數組的單個元素？ {"id" : "1201", "name" : "satish", "age" : "25", "path":[{"x":1,"y":1},{"x":2,"y":2}]} {"id" : "1202", "name" : "krishna", "age" : "28", "path":[{"x":1.23,"y":2.12},{"

1熱度

1回答

蜂巢式外置桌子，鑲木地板數據不選擇數據

我擁有帶鑲木地板數據的Hive外部桌子。這裏沒有使用壓縮。我正在使用spark工作將數據（parquet文件）寫入HDFS目錄。但是當我嘗試從表格中選擇數據時，出現錯誤/警告並且輸出不出現。我相信這是一個常見問題。請讓我知道我該如何克服這一點？蜂巢 - 1.2.1000.2.5.0.0-1245 HDP - 2.5.0.0-1245 火花1.6.2版 2017年6月1日下午5時04分27秒警告

2熱度

1回答

如何查看parquet元數據中的最小/最大索引？

我正在嘗試使用實木複合地板的最小/最大指數。我有問題一起以下/回答在這裏：Spark Parquet Statistics(min/max) integration scala> val foo = spark.sql("select id, cast(id as string) text from range(1000)").sort("id") scala> foo.printSchema

2熱度

1回答

獲取源文件木地板表的目錄火花

我有一些代碼，我在許多地板表並通過目錄和通配符閱讀，就像這樣： df = sqlContext.read.load("some_dir/*") 有一些方法我可以得到源文件對於生成的DataFrame中的每一行，df？

0熱度

1回答

從平面文件中讀取十進制領域的Java

我讀了拼花文件，如下所示， Builder<GenericRecord> builder = AvroParquetReader.builder(path); ParquetReader<GenericRecord> reader = builder.build(); GenericRecord record = null; while((record = reader.read()) !

-1熱度

2回答

用於AWS Athena查詢的AWS S3數據格式文件

我想在AWS S3中存儲http請求負載，並使用AWS Athena對這些數據執行查詢。什麼格式的文件中的數據，建議在這種情況下存儲在S3？選擇是：JSON，CSV，TSV，文本文件，Apache ORC，Apache Parquet，壓縮數據。目前我認爲這3個方面：序列化/反序列化，查詢速度，空間的時間。歡迎任何有用的鏈接！謝謝！