data-ingestion

    0熱度

    1回答

    我的上下文是; 10個csv文件在夜間上傳到我的服務器。 我的過程是: 食入: 放在HDFS文件 創建ORC蜂巢表,並把他們的數據。 處理: 星火處理:改造,清洗,加入.... 很多鏈接步驟(火花作業) 我搜索最佳實踐來自動化第一部分並觸發第二部分。 Cron,sh,dfs put。 Oozie? Apache Nifi? Flume? Telend :( 我也看https://kylo.io/,

    0熱度

    1回答

    不工作,當我運行我的卡夫卡連接的工作,我得到以下 [2017-04-25 14:56:22,806] ERROR Failed to create job for ./etc/kafka-connect-jdbc/sqlserver.properties (org.apache.kafka.connect.cli.ConnectStandalone:88) [2017-04-25 14:56:2

    1熱度

    1回答

    我有一個1GB +大小的文件從MQ來到我的目錄,這需要一些時間才能完全傳輸該文件,但是該文件將在該目錄中生成,即使它不是一個完整的。 恐怕我的目錄掃描器將會收到一個不完整的文件。 此外,我不能添加最初的延遲,因爲我不知道傳輸文件需要多長時間。 PS:我在某處讀到某些文件傳輸協議通過向文件添加一個不同的擴展名來處理這個問題,直到完成爲止。所以說我的目錄掃描器運營商正在等待任何擴展名爲.txt的文件,

    0熱度

    1回答

    這是一個簡化的場景: 需要來自同一個源的相同原始數據的N個業務流。 使用Kafka(普通卡夫卡管道)攝入數據並登陸HDFS,在每個流量的原始數據上觸發自動質量檢查流程。 所有N個流可能具有不同的數據質量標準。例如,他們可能會要求將日期和時間的不同格式應用於原始數據,以便將其轉換爲所需的模式。 處理失敗以滿足業務流程質量測試KPI的最佳方法是什麼? 的選項有: 失敗的所有 - 通知源數據提供者和等待

    0熱度

    1回答

    所以我試圖在MySQL中的RDBMS表中執行更新。問題是這個更新來自我的HDFS中的一個文件,儘管在MySQL中,當我更新記錄時,表中包含主鍵,並且結果集在描述中出現了重複的值,而用新的鍵。在記錄下面的例子中財務應當與值9上前只有一次,而是,我有兩個記錄,先用鑰匙2,第二個具有關鍵9. 我Sqoop代碼: sqoop export --connect jdbc:mysql://xxxxxx/ret

    1熱度

    2回答

    我調查直接發送春天啓動應用程序登錄到彈性搜索feasability。不使用filebeats或logstash。我相信Ingest插件可能對此有所幫助。 我最初的想法是這樣的logback使用TCP上的事情。 https://github.com/logstash/logstash-logback-encoder <?xml version="1.0" encoding="UTF-8"?> <c

    0熱度

    1回答

    我已經有一個名爲角色的配置單元表。我需要用來自mysql的信息更新此表。所以,我已經使用這個腳本認爲它會添加和我的蜂巢表更新新的數據:` sqoop import --connect jdbc:mysql://nn01.itversity.com/retail_export --username retail_dba --password itversity \ --table roles --s

    1熱度

    1回答

    願望: 我想辦法合併兩個數據幀和從指定的數據幀保持不相交的數據。 問題: 我有重複的數據和I預期這條線,以去除重複數據: final_df = new_df[~new_df.isin(previous_df)].dropna() 實施例的數據和數據測試: record = Record(1000, 9300815, '<redacted type>', '<redacted id>') te

    0熱度

    3回答

    我需要一個很好的解決方案,最好是現有的解決方案,例如Google Rest API,以便將數據傳輸/插入到BigQuery中。我不想使用POST方法發送數據 - 出於許多設計原因。我期望每秒寫入數千次。數據將被附加到url的查詢參數中。它與谷歌分析非常類似,使用Get方法發送分析數據。

    1熱度

    1回答

    我正在寫一個過程中的問題,我正在寫入從大型平面文件中獲取數據。 wrFile = io.open("outFile","w+",encoding='utf8') 我讀通過使用線源文件行::我使用與UTF8規格Python包裝如下預處理平面文件 lineACT = linecache.getline("inFile", i+j) lineNxt = linecache.getline("inFile