amazon-athena

    0熱度

    1回答

    我有大量的日誌文件,其中包含存儲在Amazon S3中的JSON對象的行。這些文件使用LZO壓縮。 的格式是使用類似下面 s3://bucket/logs/year=2017/month=01/day=01/log00_00.txt.lzo 表定義爲如下面 CREATE EXTERNAL TABLE IF NOT EXISTS logs ( attr1 string, att

    1熱度

    1回答

    我將DynamoDB表備份到S3中,並且需要(非常少的)方式以Dynamo不支持的方式對我們的數據執行定製查詢。雅典娜似乎是一個很好的方式,可以使用我們的S3備份作爲我們的DW/BI工具的源代碼。 這樣做的問題是,DyanmoDB備份到S3存儲每個行這種格式 {"Column1":{"n":"1234"},"Column2":{"n":"5678"},"Column3":{"s":"abcd"}}

    0熱度

    2回答

    是否可以限制對某個Amazon Athena數據庫的查詢,以便僅針對該數據庫運行查詢? 我想象像 jdbc:awsathena://athena.us-east-1.amazonaws.com:443/databasename ,使查詢像 SELECT * FROM exampletable 是可能的。代替 SELECT * FROM databasename.exampletable

    4熱度

    2回答

    我試圖使用RJDBC將數據從雅典娜DB拉到R,如AWS's own blog中詳細描述的那樣。唉,我想拉的數據量是巨大的,因此我得到了以下錯誤消息: ​​ 雅典娜文檔實際上並沒有提供任何這種fetchSize值,但我從this github issue莫不是該值應該低於1000.我從相同的github問題收集到無法將此fetchSize傳遞給RJDBC。那麼有沒有其他的方式來質疑雅典娜尊重這個限制

    -1熱度

    2回答

    我想在AWS S3中存儲http請求負載,並使用AWS Athena對這些數據執行查詢。什麼格式的文件中的數據,建議在這種情況下存儲在S3? 選擇是:JSON,CSV,TSV,文本文件,Apache ORC,Apache Parquet,壓縮數據。 目前我認爲這3個方面:序列化/反序列化,查詢速度,空間的時間。 歡迎任何有用的鏈接!謝謝!

    0熱度

    1回答

    我試圖從雅典娜獲得N行的隨機樣本。但是,因爲從中我要提請此示例表是巨大的天真 SELECT id FROM mytable ORDER BY RANDOM() LIMIT 100 需要永遠跑,大概是因爲ORDER BY需要被髮送到一個節點,然後慢騰騰的所有數據和訂單數據。 我知道TABLESAMPLE,但它允許一個樣本的一些百分比而不是一些數量的行。有沒有更好的方法來做到這一點?

    0熱度

    1回答

    我試圖從CLI和通過boto3使用AWS Athena,但由於某些原因它不被識別。我已經升級到boto3 boto3.__version__ >>'1.4.4' aws --version >>aws-cli/1.11.56 Python/3.6.0 Darwin/15.6.0 botocore/1.5.19 最新版本的時候我去做client = boto3.client('athen

    1熱度

    1回答

    查詢在Amazon Athena中創建的表時,出現以下錯誤。 錯誤 HIVE_CURSOR_ERROR:行不是有效的JSON對象 - JSONException:一個JSONObject文本必須在2 示例文件結尾「}」,這我使用和查詢創建表格如下。該表通過下面的查詢成功創建,但是當我從表中獲取結果時,我收到錯誤。請提供您寶貴的建議。 注意Sample Data Create table

    1熱度

    1回答

    我有在AWS譜中創建的用於查詢s3數據的外部表,但是我無法識別記錄所屬的文件名(我擁有數千個文件下一個桶) 在AWS Athena中,我們有一個僞列「$ PATH」,它將顯示s3文件名是否有使用頻譜時可用的類似方法?

    0熱度

    1回答

    我是AWS上的Hive和Athena的新手。我有,看起來像一個表中的數據: _id type title 的_id看起來像{"$oid":"12asdf9"}。 我已成功地創建條一切的數據,但使用regexp_extract 我現在需要把這個查詢的結果保存到_id列,實際的ID查詢。 的解決方案我想出去(我不能去上班)是:在_id列 運行regexp_extract 選擇我需要的 轉儲其它