Big Data: Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição?
Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição?
A) Combinação – reduz a quantidade de tarefas no redutor ao eliminar duplicatas
B) Classificação – organiza os dados em ordem alfabética antes da gravação final
C) Embaralhamento – redistribui os dados intermediários para os redutores corretos
D) Particionamento – divide os dados em grupos com base em similaridade semântica
E) Agendamento – determina quais tarefas devem ser executadas com prioridade
No modelo MapReduce do Hadoop, após a fase Map, são gerados pares intermediários (chave, valor) que ainda precisam ser preparados para a fase Reduce.
-
Processo que precede o Reduce O nome desse processo é o embaralhamento (shuffle). Ele ocorre entre Map e Reduce e envolve a transferência/redistribuição dos dados intermediários pela rede.
-
Principal contribuição A principal contribuição do shuffle é garantir que todos os valores associados à mesma chave cheguem ao mesmo redutor (isto é, ao “redutor correto”), permitindo que o Reduce faça a agregação/processamento final por chave.
Observação: normalmente junto do shuffle também acontece a ordenação/agrupamento por chave (sort/group), mas o ponto central pedido no enunciado é a redistribuição dos pares chave-valor para balancear e direcionar o trabalho aos redutores.
Alternativa correta: (C).