avro

    0熱度

    1回答

    當我嘗試在Sqoop運行命令: sqoop import --connect jdbc:oracle:thin:@//MyServer/MyDatabase --username MyUser --password MyPassword -m 1 --table MyTable --fetch-size 10 --create-hive-table --hive-table LocalTable

    0熱度

    1回答

    我需要將數據從關係數據庫移到HDFS,但我想將數據保存爲parquet-avro文件格式。看看sqoop documentation它看起來像我的選項是--as-parquetfile或--as-avrodatafile,但不是兩者的組合。從我對下面這個blog /圖片的理解中,parquet-avro的工作方式是它嵌入了avro模式的嵌入式文件,以及一個將avro對象轉換並保存到parquet文

    2熱度

    1回答

    我想根據以前定義的模式文件在我的Java項目中自動創建類。 爲了達到這個目的,我使用了Avro Maven插件。 的問題是,生成的類不是純粹的POJO對象 - 也有,我不希望在我的數據模型的Avro引用(要保持它的簡單): import org.apache.avro.Schema; import org.apache.avro.Schema.Parser; import org.apache

    0熱度

    1回答

    我使用星火Mllib來爲我的數據預測,然後將它們存儲到HDFS中的Avro格式時: val dataPredictions = myModel.transform(myData) val output = dataPredictions.select("is", "probability", "prediction") output.write.format("com.databricks.s

    1熱度

    2回答

    當試圖使用BinaryEncoder寫入Avro對象時,我試圖發佈Avro(進入Kafka)並獲取NullPointerException。 這裏是縮寫堆棧跟蹤: java.lang.NullPointerException: null of array of com.mycode.DeeplyNestedObject of array of com.mycode.NestedObject of

    0熱度

    1回答

    我做了一個poc,使用火花流從卡夫卡讀取數據。但是我們的組織正在使用Apache Flink或Kafka使用者從Apache kafka讀取數據作爲標準過程。所以我需要用Kafka消費者或Apache Flink替換Kafka流媒體。在我的應用程序用例中,我需要從kafka讀取數據,過濾json數據並將字段放在cassandra中,所以建議使用Kafka使用者而不是flink /其他流,因爲我不需

    0熱度

    1回答

    是否可以爲用戶定義類型設置默認值? 即給出的AVDL: protocol { record A { } record B { union { A, string } foo = A; } } 記錄B是有效的,thing默認情況下爲A的一個實例?

    2熱度

    2回答

    我有一個火花主&工人Docker容器火花2.0.2和Hadoop 2.7運行。我試圖通過運行 df = spark.read.json("/data/test.json") df.write.format("com.databricks.spark.avro").save("/data/test.avro") 從不同的容器(同一網絡)pyspark提交一份工作,但我得到這個錯誤: java.

    0熱度

    2回答

    我在Spring-cloud-stream-schema - 1.2.0.RC1中缺少AvroSchemaMessageConverter類。我想通過這個鏈接Missing schema module for spring-cloud-stream。 <dependency> <groupId>org.springframework.cloud</groupId> <artif

    0熱度

    1回答

    編輯: 表中有一些損壞的AVRO文件。刪除其中的一些後,每件事情都很好。我使用avro-tools將這些文件解壓縮爲json,解壓縮後的文件也不是很大。所以它似乎是Impala中處理損壞的AVRO文件的一些錯誤。 我有一個Impala表與Gziped AVRO格式,它是由「日」分區。當我執行查詢: select count(0) from adhoc_data_fast.log where day