Big Data: Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é responsável por armazenar os dados efetivos dentro do cluster Hadoop?
Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é responsável por armazenar os dados efetivos dentro do cluster Hadoop?
A) YARN, por ser o componente responsável pelo agendamento e gerenciamento de tarefas distribuídas
B) NameNode, por conter os metadados que descrevem a localização dos arquivos armazenados
C) MapReduce, por possibilitar a divisão das tarefas em pares chave-valor para processamento paralelo
D) DataNode, por ser o responsável direto pelo armazenamento físico dos dados no cluster
E) Hadoop Common, por fornecer bibliotecas e scripts necessários à execução dos demais componentes
No Hadoop (mais especificamente no HDFS — Hadoop Distributed File System), a arquitetura separa metadados de dados:
-
NameNode: mantém os metadados do sistema de arquivos (ex.: nomes de arquivos, permissões, e principalmente o mapeamento de quais blocos compõem cada arquivo e em quais nós esses blocos estão). Ele não armazena, em geral, o conteúdo efetivo dos arquivos.
-
DataNode: armazena os blocos de dados (o conteúdo “de verdade” dos arquivos) nos discos locais dos nós do cluster e atende às requisições de leitura/escrita desses blocos. Portanto, é o componente responsável pelo armazenamento físico dos dados dentro do cluster.
Os demais componentes citados não têm a função de armazenamento físico:
- YARN gerencia recursos e agendamento;
- MapReduce é um modelo/framework de processamento;
- Hadoop Common são bibliotecas/utilitários de suporte.
Alternativa correta: (D).