O K-médias (K-means) é um método iterativo bastante utilizado para a realização de agrupamento de dados. Contudo, a inicialização aleatória dos centroides pode provocar uma fragilidade na constituição dos agrupamentos. Assinale entre as alternativas, aquela que identifica corretamente a fragilidade do K-means e como podemos mitigá-la:

Questão

O K-médias (K-means) é um método iterativo bastante utilizado para a realização de agrupamento de dados. Contudo, a inicialização aleatória dos centroides pode provocar uma fragilidade na constituição dos agrupamentos.

Assinale entre as alternativas, aquela que identifica corretamente a fragilidade do K-means e como podemos mitigá-la:

Alternativas

A) A fragilidade é criar agrupamentos desbalanceados, com valores de silhueta muito diferentes entre si. Para solucionar isso, aconselha-se a realização de múltiplas inicializações do algoritmo e a análise da silhueta dos clusters para identificar a melhor inicialização.

86%

B) A fragilidade é criar agrupamentos com altos coeficientes de silhueta. Para solucionar isso, aconselha-se a realização de múltiplas iterações com diferentes quantidades de centroides.

C) A fragilidade é criar agrupamentos com muitas amostras. Para solucionar isso, basta realiza a Análise de Elbow para identificar a quantidade ideal de amostras.

D) A fragilidade é criar muitos agrupamentos. Para solucionar isso, aconselha-se a realização de múltiplas iterações com diferentes quantidades de centroides para reduzir a quantidade.

E) A fragilidade é criar agrupamentos com pouca separabilidade entre os grupos. Para isso, sugere-se utilizar diferentes métricas de dissimilaridade e realizar a análise do coeficiente de silhueta para identificar a qualidade da clusterização.

Explicação

O K-means depende fortemente da escolha inicial dos centroides. Como a inicialização costuma ser aleatória, o algoritmo pode convergir para diferentes mínimos locais da função objetivo (SSE/inércia) dependendo do ponto de partida, gerando soluções (partições) de qualidades distintas.

Essa é a fragilidade central citada no enunciado: a constituição dos agrupamentos pode variar e, em algumas inicializações, resultar em clusters piores (por exemplo, mais “desbalanceados” ou com pior coesão/separação), enquanto outras inicializações levam a uma partição melhor.

Uma forma clássica de mitigar esse problema é:

  1. executar o K-means várias vezes com diferentes inicializações (parâmetro n_initn\_init), e
  2. escolher a melhor solução segundo algum critério de qualidade (frequentemente menor inércia; e também pode-se analisar a qualidade via coeficiente de silhueta).

Entre as alternativas, a que melhor expressa a fragilidade ligada à inicialização e a mitigação via múltiplas inicializações e avaliação da qualidade (silhueta) é a alternativa A. As demais ou descrevem efeitos incorretos (ex.: “altos coeficientes de silhueta” como fragilidade) ou tratam de escolha de kk (elbow) e não da instabilidade por inicialização.

Alternativa correta: A.

Questões relacionadas

Ver últimas questões

Comece a estudar de forma inteligente hoje mesmo

Resolva questões de concursos e vestibulares com IA, gere simulados personalizados e domine os conteúdos que mais caem nas provas.

Cancele quando quiser.