parquet

    1熱度

    1回答

    首先讓我介紹一下我的使用情況下,我每天收到500萬行,像這樣: ID |分類 1 | cat1,cat2,cat3,...,catn 2 | CAT1,CATX,卡蒂,...,anothercategory 輸入數據:50壓縮CSV文件,每個文件是250 MB - >總計:12.5 GB的壓縮 目的是要回答這樣的問題:發現屬於所有ID來CATX和卡蒂,找到屬於CAT3 ID和不CATY等...:即

    0熱度

    1回答

    我有一個鑲木地板文件,其中我存儲了許多用戶的指標。 直到現在我已經完整地重新計算了這個文件,但是計算很複雜,所以我只想覆蓋特定的列。 有兩種方法: 添加新行 將列 因此,例如,添加新行的時候,我想要做這樣的事情: df_old = sqlContext.read.parquet(myfile) df_new = df_other_src.select(...) df_new = df_old.

    1熱度

    2回答

    我有2個DataFrames case class UserTransactions(id: Long, transactionDate: java.sql.Date, currencyUsed: String, value: Long) ID, TransactionDate, CurrencyUsed, value 1, 2016-01-05, USD, 100 1, 2016-01-

    0熱度

    1回答

    Spark解釋實木複合地板的方式存在一些問題。 我有確認模式(df.schema()方法)一個Oracle源: root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- LM_BIRTHDATE: timestamp (nullable = true) |-- LM_COMM_METHOD: string (

    1熱度

    2回答

    如何在spark/scala中打印包含對象嵌套數組的單個元素? {"id" : "1201", "name" : "satish", "age" : "25", "path":[{"x":1,"y":1},{"x":2,"y":2}]} {"id" : "1202", "name" : "krishna", "age" : "28", "path":[{"x":1.23,"y":2.12},{"

    1熱度

    1回答

    我擁有帶鑲木地板數據的Hive外部桌子。這裏沒有使用壓縮。我正在使用spark工作將數據(parquet文件)寫入HDFS目錄。但是當我嘗試從表格中選擇數據時,出現錯誤/警告並且輸出不出現。 我相信這是一個常見問題。請讓我知道我該如何克服這一點? 蜂巢 - 1.2.1000.2.5.0.0-1245 HDP - 2.5.0.0-1245 火花1.6.2版 2017年6月1日下午5時04分27秒警告

    2熱度

    1回答

    我正在嘗試使用實木複合地板的最小/最大指數。我有問題一起以下/回答在這裏:Spark Parquet Statistics(min/max) integration scala> val foo = spark.sql("select id, cast(id as string) text from range(1000)").sort("id") scala> foo.printSchema

    2熱度

    1回答

    我有一些代碼,我在許多地板表並通過目錄和通配符閱讀,就像這樣: df = sqlContext.read.load("some_dir/*") 有一些方法我可以得到源文件對於生成的DataFrame中的每一行,df?

    0熱度

    1回答

    我讀了拼花文件,如下所示, Builder<GenericRecord> builder = AvroParquetReader.builder(path); ParquetReader<GenericRecord> reader = builder.build(); GenericRecord record = null; while((record = reader.read()) !

    -1熱度

    2回答

    我想在AWS S3中存儲http請求負載,並使用AWS Athena對這些數據執行查詢。什麼格式的文件中的數據,建議在這種情況下存儲在S3? 選擇是:JSON,CSV,TSV,文本文件,Apache ORC,Apache Parquet,壓縮數據。 目前我認爲這3個方面:序列化/反序列化,查詢速度,空間的時間。 歡迎任何有用的鏈接!謝謝!