了Talend過程數據的量大非常快速且高效的方式。這一切都取決於你對Talend平臺的瞭解。
請考慮以下評論作爲您的問題的答案。
Q1. Talend處理數據大於RAM大小?答:您不能在Talend studio中使用整個RAM。只有一小部分內存可以用於其幾乎一半的內存。
例如: - 隨着8 GB的在64位系統可用內存,最佳設置可以是: -vmargs
-Xms1024m
-Xmx4096m
-XX:MaxPermSize參數=512米
-Dfile.encoding = UTF-8
現在在你的情況下,或者你必須increa你的RAM與100 GB
或簡單地寫在硬盤上的數據。爲此,您必須爲緩衝區組件選擇一個臨時數據目錄,例如: tMap,tBufferInputs,tAggregatedRow等。
Q2。流水線並行是隨着時機而定的?我是否錯過代碼中的任何內容來完成這個任務?
A.在Talend Studio中,數據的並行流的裝置,以一個SUBJOB的輸入數據流劃分成並行進程並且同時執行它們,以便獲得更好的性能。
但是,只有訂閱了Talend平臺解決方案之一才能使用此功能。
當你制定一個工作過程中使用了Talend工作室, 您可以啓用或通過一個單一的點擊禁用並行,然後工作室自動在給定工作的實施非常龐大的數據
enter image description here
並行執行 並行的執行需要四個關鍵步驟解釋如下:
分區():在這一步驟中,工作室將輸入記錄到螺紋的給定數量的秒。
收集():在此步驟中,Studio收集拆分線程並將它們發送給給定組件進行處理。
Departitioning():在此步驟中,Studio將拆分線程的並行執行的輸出進行分組。
重新收集():在此步驟中,Studio捕獲分組執行結果並將其輸出到給定組件。
Q3。 tuniq &加入操作在物理內存中完成,導致作業運行緩慢。磁盤選項可用於處理這些功能,但速度太慢。
Q4。如何在不將數據推送到數據庫(ELT)的情況下提高性能。無論talend能以百萬計處理大量數據。需要用較少量的RAM來處理這種數據?
A 3 & 4.這裏我建議你使用tOutputBulkExec直接將數據插入到數據庫中。組件,然後可以在數據庫級別使用ELT組件應用這些操作。