我已經在azure blob存儲上創建了具有HD Insight上Apache Spark的地板文件結構。 這是結構:Apache Drill無法讀取分區的實木複合地址文件
/root
/sitename=www.site1.com
/datekey=20160101
log-01-file.parquet
/sitename=www.site2.com
/datekey=29160192
我們要使用Apache鑽才能運行此反對票木結構查詢,但我們發現有一些問題。
當運行這個查詢
SELECT datekey FROM azure.root.`./root` WHERE sitename='www.mysite.com' GROUP BY datekey
我們得到這個錯誤
"org.apache.drill.common.exceptions.UserRemoteException: SYSTEM ERROR: NumberFormatException: www.trovaprezzi.it Fragment 2:2"
可能是什麼錯誤的原因是什麼?
同樣,當運行沒有WHERE子句的查詢時,似乎分區鍵被看作空值。
SELECT sitename, COUNT(*) as N FROM azure.root.`./root` GROUP BY sitename
|sitename|N
|NULL |100000|
有沒有人試驗過這個問題? 任何幫助將非常感激。
感謝 羅布
我在我的個人筆記本上使用Drill。在Drill文檔中,我看到支持azure blob存儲。我的問題是,我無法閱讀Drill中帶有火花的分區。 –
親愛的所有人,是否有人在亞馬遜S3或本地文件系統上嘗試類似的思考? –
我也嘗試在本地鑽取實例上使用桌面PC上的鑲木地板文件,但他獲得了鑲木地板分區的空值(XXX = yyy目錄)。 有沒有人試驗過這個問題(解決得更好) 謝謝 –