1
我想了解當從NoSQL源加載數據到Spark時發生了什麼。即。它會嘗試將記錄加載到驅動程序中,然後將其分發到工作節點,還是將記錄同時加載到所有工作節點中? 。基本上有什麼辦法可以並行加載數據,如果是的話,如何確保相同的記錄不被多個節點處理? 如果這不是一個並行的過程,將相同的JSON寫入「.json」文件幫助?(提供的每行都是一條記錄)將NOSQL數據加載到Spark節點
我想了解當從NoSQL源加載數據到Spark時發生了什麼。即。它會嘗試將記錄加載到驅動程序中,然後將其分發到工作節點,還是將記錄同時加載到所有工作節點中? 。基本上有什麼辦法可以並行加載數據,如果是的話,如何確保相同的記錄不被多個節點處理? 如果這不是一個並行的過程,將相同的JSON寫入「.json」文件幫助?(提供的每行都是一條記錄)將NOSQL數據加載到Spark節點
它將始終直接加載到工作人員。根據數據的來源以及數據的存儲方式,可以並行加載。當數據被加載時,數據將被分割成非重疊行,所以你不必擔心兩次處理相同的數據。文件格式將不相關。你從哪個數據源加載(mongo,cassandra,hbase)?如果你告訴我源系統,我可以給出更好的答案。
謝謝你的答案喬。我正在嘗試從Cloudant中加載它......任何關於此的見解都會非常有幫助。 – user3637401