Apache Spark可以加速從Oracle DB中讀取數百萬條記錄並將它們寫入文件的過程嗎？

我要求從Oracle數據庫讀取數百萬（〜500萬）條記錄，然後對這些記錄進行一些處理，並將處理過的記錄寫入文件。

目前，這在Java中完成，而在此過程 - 在DB中的記錄被歸類爲不同的子集，基於一些數據標準 - 在Java過程中，4個線程並行運行 - 每個線程讀取一組子記錄，處理並將處理後的記錄寫入新文件 - 最後它將所有這些文件合併到一個文件中。

仍然需要大約半小時才能完成整個過程。

所以我想知道，如果Apache Spark能夠快速從Oracle數據庫讀取數百萬條記錄，處理這些數據並寫入文件？

如果Spark能夠使這個過程更快，那麼在我的過程中用什麼最好的方法來實現這個呢？它也會在非集羣環境中有效嗎？

欣賞幫助。

2017-06-22 Smita Nair

爲什麼不在PL/SQL中進行處理？消除至少一塊不必要的I/O – APC

您是否測量了當前設置中的限制？它是你的Java應用程序的處理速度，還是從數據庫的查找/傳輸速度？ – maasg

-1

是的，你可以使用Spark來做到這一點，它是爲分佈式處理而構建的！ http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases

您應該使用配置良好的Spark集羣來實現相同。性能是您需要通過根據需要添加更多工作節點來進行微調的部分。

2017-06-22 20:05:41 Anand

回答