2016-09-22 18 views
1

在很多情況下,我們從數據庫中獲取數據並將其帶到我們的應用程序(數據到功能)。但是,在某些設計中,我們採用其他方式來做,這在大數據設置中很有利。例子是Hadoop MapReduce或Apache Spark。將功能引入數據 - 這是如何調用的?

我們如何稱這種方法爲數據帶來功能而不是其他方式?我記得像「數據位置敏感」或「數據位置感知」或類似的東西,但無法在互聯網上找到正確的術語。

回答

1

它叫做data locality? 因此,假設如果您有一個文本文件的大小爲1 GB,並且您已經編寫了一個映射減少代碼以將該文件中的所有文本轉換爲大寫,那麼首先將該文件分解爲塊並將邏輯覆蓋文本爲大寫將可用於每個數據節點。現在,每個節點上的任務跟蹤器只會在該本地節點上運行map reduce代碼。這被稱爲數據局部性。

+0

這是一個(術語)。我還發現了當時我認爲有趣的文章之一:http://www.bluedata.com/blog/2015/05/data-locality-is-irrelevant-for-hadoop/(對想法沒有認可) – Make42