Big Data: Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é responsável por armazenar os dados efetivos dentro do cluster Hadoop?

Questão

Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é responsável por armazenar os dados efetivos dentro do cluster Hadoop?

Alternativas

A) YARN, por ser o componente responsável pelo agendamento e gerenciamento de tarefas distribuídas

B) NameNode, por conter os metadados que descrevem a localização dos arquivos armazenados

C) MapReduce, por possibilitar a divisão das tarefas em pares chave-valor para processamento paralelo

D) DataNode, por ser o responsável direto pelo armazenamento físico dos dados no cluster

97%

E) Hadoop Common, por fornecer bibliotecas e scripts necessários à execução dos demais componentes

Explicação

No Hadoop (mais especificamente no HDFS — Hadoop Distributed File System), a arquitetura separa metadados de dados:

  1. NameNode: mantém os metadados do sistema de arquivos (ex.: nomes de arquivos, permissões, e principalmente o mapeamento de quais blocos compõem cada arquivo e em quais nós esses blocos estão). Ele não armazena, em geral, o conteúdo efetivo dos arquivos.

  2. DataNode: armazena os blocos de dados (o conteúdo “de verdade” dos arquivos) nos discos locais dos nós do cluster e atende às requisições de leitura/escrita desses blocos. Portanto, é o componente responsável pelo armazenamento físico dos dados dentro do cluster.

Os demais componentes citados não têm a função de armazenamento físico:

  • YARN gerencia recursos e agendamento;
  • MapReduce é um modelo/framework de processamento;
  • Hadoop Common são bibliotecas/utilitários de suporte.

Alternativa correta: (D).

Questões relacionadas

Ver últimas questões

Comece a estudar de forma inteligente hoje mesmo

Resolva questões de concursos e vestibulares com IA, gere simulados personalizados e domine os conteúdos que mais caem nas provas.

Cancele quando quiser.