我想將數據存儲在火花中,以便5秒或更短時間差的時間戳與相應的數據一起落入一個5秒存儲桶中。同樣,下一組5秒鐘與其餘日誌一起。 (這樣我就可以在桶中彙總數據)。我的日誌:在apache火花中創建存儲桶
1472120400.107 HTTP GEO er.aujf.csdh.jkhydf.eyrgt
1472120399.999 HTTP GEO er.asdhff.cdn.qyirg.sdgsg
1472120397.633 HTTP GEO er.abff.kagsf.weyfh.ajfg
1472120397.261 HTTP GEO er.laffg.ayhrff.agyfr.yawr
1472120394.328 HTTP GEO er.qfryf.aqwruf.oiuqwr.agsf
1472120393.737 HTTP GEO er.aysf.aouf.ujaf.casf
.
.
.
我仍然無法弄清楚如何在火花中做到這一點。
帶時間戳記的日誌1472120400.107,1472120399.999,1472120397.633,1472120397.261等分爲一個分區,下一個分區設置爲下一個分區等等。
輸出:
所有時間戳1472120400.107,1472120399.999,1472120397.633,1472120397.261的loglines將被保存在存儲器(一個桶),以便進一步的處理將被完成的那些比如尋找計爲整個桶。同樣,下一個桶。
您的預期輸出是什麼? – mtoto
你是什麼意思的「桶」? – mtoto
這只不過是分區日誌。分區的日誌組形成了存儲桶。 – kaks