Apache Spark: Os componentes do Spark (2.0 ou superior) têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.
Os componentes do Spark (2.0 ou superior) têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.
A) Spark.Catalog
B) SparkSession
C) DataFrame
D) RDD
E) SparkContext
No Apache Spark, o SparkContext é o componente responsável por conectar a aplicação ao cluster (por exemplo, via YARN, Standalone, Mesos ou Kubernetes), coordenando o acesso aos recursos e a execução distribuída.
A partir do Spark 2.0, a SparkSession passou a ser a “porta de entrada” recomendada para usar DataFrames/Datasets e integrar SQL, mas ela encapsula (cria/usa internamente) um SparkContext. Ou seja:
- SparkSession = interface unificada para trabalhar com APIs (SQL, DataFrame, etc.)
- SparkContext = conexão efetiva com o cluster e base para execução distribuída
Logo, o componente que estabelece a conexão com o Cluster é o SparkContext.
Alternativa correta: (E).