Na preparação dos dados para modelagem de machine learning, diversas técnicas são aplicadas para garantir que os dados estejam prontos para o treinamento eficaz dos modelos. Cada técnica é utilizada de acordo com as características específicas do problema e dos dados disponíveis. Abaixo, três assertivas são apresentadas, cada uma descrevendo uma técnica de pré-processamento de dados. Relacione cada assertiva com o conceito de modelagem de dados ao qual ela mais diretamente contribui. Bloco 1: A) Codificação one-hot de variáveis categóricas. B) Normalização min-max. C) Imputação de valores ausentes. Bloco 2: I – Melhoria da consistência dos dados para treinamento de modelos sensíveis à escala. II – Adaptação de dados não numéricos para modelos que requerem entradas numéricas. III – Manutenção da integridade do conjunto de dados ao lidar com entradas incompletas.
Questão
Na preparação dos dados para modelagem de machine learning, diversas técnicas são aplicadas para garantir que os dados estejam prontos para o treinamento eficaz dos modelos. Cada técnica é utilizada de acordo com as características específicas do problema e dos dados disponíveis. Abaixo, três assertivas são apresentadas, cada uma descrevendo uma técnica de pré-processamento de dados. Relacione cada assertiva com o conceito de modelagem de dados ao qual ela mais diretamente contribui.
Bloco 1:
A) Codificação one-hot de variáveis categóricas.
B) Normalização min-max.
C) Imputação de valores ausentes.
Bloco 2:
I – Melhoria da consistência dos dados para treinamento de modelos sensíveis à escala.
II – Adaptação de dados não numéricos para modelos que requerem entradas numéricas.
III – Manutenção da integridade do conjunto de dados ao lidar com entradas incompletas.
Alternativas
A) A – I, B – II, C – III.
B) A – II, B – III, C – I.
C) A – III, B – II, C – I.
D) A – III, B – I, C – II.
E) A – II, B – I, C – III.
Explicação
Vamos relacionar cada técnica (Bloco 1) ao objetivo (Bloco 2):
A) Codificação one-hot de variáveis categóricas.
- One-hot transforma categorias (texto/rótulos) em colunas numéricas binárias (0/1), permitindo que algoritmos que exigem números recebam essas informações.
- Portanto, corresponde a II – Adaptação de dados não numéricos para modelos que requerem entradas numéricas.
B) Normalização min-max.
- A normalização min-max reescala variáveis para um intervalo padrão (tipicamente ), reduzindo diferenças de magnitude entre atributos.
- Isso melhora o comportamento de modelos sensíveis à escala (ex.: KNN, redes neurais, SVM com certos kernels, etc.).
- Portanto, corresponde a I – Melhoria da consistência dos dados para treinamento de modelos sensíveis à escala.
C) Imputação de valores ausentes.
- Imputar (preencher) valores faltantes evita perder linhas/colunas e permite trabalhar com dados incompletos sem quebrar o treinamento.
- Portanto, corresponde a III – Manutenção da integridade do conjunto de dados ao lidar com entradas incompletas.
Logo: A – II, B – I, C – III.
Alternativa correta: (E).