我是Apache-Spark的新手,Apache Spark可以加速從Oracle DB中讀取數百萬條記錄並將它們寫入文件的過程嗎?
我要求從Oracle數據庫讀取數百萬(〜500萬)條記錄,然後對這些記錄進行一些處理,並將處理過的記錄寫入文件。
目前,這在Java中完成,而在此過程 - 在DB中的記錄被歸類爲不同的子集,基於一些數據標準 - 在Java過程中,4個線程並行 運行 - 每個線程讀取一組子記錄,處理並將處理後的記錄寫入新文件 - 最後它將所有這些文件合併到一個文件中。
仍然需要大約半小時才能完成整個過程。
所以我想知道,如果Apache Spark能夠快速從Oracle數據庫讀取數百萬條記錄,處理這些數據並寫入文件?
如果Spark能夠使這個過程更快,那麼在我的過程中用什麼最好的方法來實現這個呢?它也會在非集羣環境中有效嗎?
欣賞幫助。
爲什麼不在PL/SQL中進行處理?消除至少一塊不必要的I/O – APC
您是否測量了當前設置中的限制?它是你的Java應用程序的處理速度,還是從數據庫的查找/傳輸速度? – maasg