spark-avro

    1熱度

    1回答

    我有一個十進制列「TOT_AMT」定義爲類型「字節」和邏輯類型「十進制」在我avro模式。 使用databricks火花阿夫羅,當我試圖使用求和它拋出的總和函數的TOT_AMT柱從而在火花的數據幀之後的「功能和要求的數字類型不Binarytype」錯誤。 該柱在阿夫羅模式定義如下面, 名稱= 「TOT_AMT」, 「類型」:[ 「空」,{ 「類型」: 「字節」, 「logicaltype」: 「小

    0熱度

    2回答

    我在S3中使用Spark 2使用Java API將一些遺留數據轉換爲parquet格式。 我有Avro模式(.avsc文件)和他們使用Avro編譯器生成的Java類,我想用Parquet格式存儲使用這些模式的數據。輸入數據不是任何標準格式,但我有一個庫,可以將每行從傳統文件轉換爲Avro類。 是否可以將數據讀取爲JavaRDD<String>,將轉換應用到使用庫的Avro類,最後將其存儲爲實木複合

    1熱度

    1回答

    我使用sqoop將avro文件格式導入選定列的表。使用avro-tools來日期顯示爲奇怪的格式(negetive)。我如何解碼日期? {"first_name":{"string":"Mary"},"last_name": {"string":"Botman"},"birth_date":{"long":-345772800000}} 其中如MySQL查詢擊掌正確格式 mysql> sele

    1熱度

    1回答

    我創建了Hive avro表,並試圖從pyspark讀取它。基本上試圖對pyspark上的這個Hive avro表進行基本查詢,以便進行一些分析。 from pyspark import SparkContext from pyspark.sql import HiveContext hive_context = HiveContext(sc) test = hive_context.ta

    0熱度

    1回答

    我使用星火Mllib來爲我的數據預測,然後將它們存儲到HDFS中的Avro格式時: val dataPredictions = myModel.transform(myData) val output = dataPredictions.select("is", "probability", "prediction") output.write.format("com.databricks.s

    2熱度

    1回答

    我們有一個與Avro的劃分是這樣的: table --a=01 --a=02 我們希望從單個分區保持分區列裝載數據。 我發現this stackoverflow question和我申請建議片段: DataFrame df = hiveContext.read().format(format). option("basePath", "path/to/table/"). load("p

    3熱度

    1回答

    我期待在Spark 1.6上使用DataFrames API構建Spark Streaming應用程序。在我陷入兔洞之前,我希望有人能夠幫助我理解DataFrames如何處理具有不同模式的數據。 這個想法是消息將通過Avro模式流入卡夫卡。我們應該能夠以向後兼容的方式發展架構,而無需重新啓動流應用程序(應用程序邏輯仍然可以工作)。 使用模式註冊表反編譯消息的新版本以及使用KafkaUtils創建直

    0熱度

    1回答

    我是AVRO的新手。我們已經開始使用AVRO模式來讀取數據。 現在我們有一個用例,在閱讀時需要截斷數據。 假設我的Avro schcema是這樣 { "name": "table", "namepsace": "csd", "type": "record", "fields": [ {"name": "CustId", "type":"strin

    0熱度

    1回答

    我是hadoop和大數據技術的新手。我喜歡將鑲木地板文件轉換爲avro文件並讀取數據。我在幾個論壇搜索,並建議使用AvroParquetReader。 AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file); GenericRecord nextRecord = reader.rea

    0熱度

    1回答

    我們的項目同時具有scala和python代碼,我們需要向kafka發送/使用avro編碼的消息。 我使用python和scala發送avro編碼消息給kafka。我在Scala代碼製片其發送使用Twitter一一對應庫的Avro編碼的消息如下: val resourcesPath = getClass.getResource("/avro/url_info_schema.avsc") val