將NOSQL數據加載到Spark節點

我想了解當從NoSQL源加載數據到Spark時發生了什麼。即。它會嘗試將記錄加載到驅動程序中，然後將其分發到工作節點，還是將記錄同時加載到所有工作節點中？。基本上有什麼辦法可以並行加載數據，如果是的話，如何確保相同的記錄不被多個節點處理？如果這不是一個並行的過程，將相同的JSON寫入「.json」文件幫助？（提供的每行都是一條記錄）將NOSQL數據加載到Spark節點

來源

2016-10-27 user3637401

它將始終直接加載到工作人員。根據數據的來源以及數據的存儲方式，可以並行加載。當數據被加載時，數據將被分割成非重疊行，所以你不必擔心兩次處理相同的數據。文件格式將不相關。你從哪個數據源加載（mongo，cassandra，hbase）？如果你告訴我源系統，我可以給出更好的答案。

來源

2016-10-27 05:02:02

謝謝你的答案喬。我正在嘗試從Cloudant中加載它......任何關於此的見解都會非常有幫助。 – user3637401

將NOSQL數據加載到Spark節點

回答

相關問題