A equipe do Laboratório de Bioinformática Genômica, em um centro de análise de big data, está desenvolvendo um modelo avançado de Inteligência Artificial Generativa para prever a estrutura tridimensional de proteínas, um desafio crucial na descoberta de novos fármacos. Contudo, o projeto enfrenta uma barreira significativa: a base de dados inicial, compilada de diversas fontes públicas e experimentos preliminares, apresenta inconsistências notáveis. Registros de sequências de aminoácidos contêm caracteres inválidos, valores de temperatura de cristalização estão ausentes em múltiplas entradas, e as referências numéricas para o grau de hidrofobicidade das cadeias polipeptídicas aparecem formatadas de maneira não padronizada, ora como inteiros, ora como decimais com precisão variável. Essa heterogeneidade e imprecisão dificultam o pré-processamento e a alimentação dos algoritmos de machine learning, comprometendo a acurácia e a robustez do modelo preditivo. Identifique os tipos de dados fundamentais que a equipe de bioinformática deve considerar na fase de limpeza e estruturação para garantir a integridade do modelo. Assinale a alternativa que apresenta a combinação mais adequada.

Questão

A equipe do Laboratório de Bioinformática Genômica, em um centro de análise de big data, está desenvolvendo um modelo avançado de Inteligência Artificial Generativa para prever a estrutura tridimensional de proteínas, um desafio crucial na descoberta de novos fármacos. Contudo, o projeto enfrenta uma barreira significativa: a base de dados inicial, compilada de diversas fontes públicas e experimentos preliminares, apresenta inconsistências notáveis. Registros de sequências de aminoácidos contêm caracteres inválidos, valores de temperatura de cristalização estão ausentes em múltiplas entradas, e as referências numéricas para o grau de hidrofobicidade das cadeias polipeptídicas aparecem formatadas de maneira não padronizada, ora como inteiros, ora como decimais com precisão variável. Essa heterogeneidade e imprecisão dificultam o pré-processamento e a alimentação dos algoritmos de machine learning, comprometendo a acurácia e a robustez do modelo preditivo.

Identifique os tipos de dados fundamentais que a equipe de bioinformática deve considerar na fase de limpeza e estruturação para garantir a integridade do modelo. Assinale a alternativa que apresenta a combinação mais adequada.

Alternativas

Tipos enumerados para categorias predefinidas e registros (structs) para agrupar informações relacionadas.

Dados booleanos para sinalizar a completude dos registros e cadeias de caracteres para identificadores únicos.

Estruturas de dados como listas encadeadas para sequências e árvores binárias para otimização de busca.

Pointers para otimização de memória em grandes conjuntos de dados e arrays multidimensionais para relações complexas.

Strings para as sequências de aminoácidos, inteiros para contagens discretas e pontos flutuantes para medições contínuas com precisão.

94%

Explicação

O enunciado descreve três problemas típicos de limpeza/estruturação de dados antes de treinar modelos de ML:

  1. Sequências de aminoácidos com caracteres inválidos
  • Sequências são, fundamentalmente, dados textuais (cadeias de símbolos). Assim, o tipo base adequado é string.
  • A limpeza aqui envolve validar o alfabeto permitido (por exemplo, letras de aminoácidos) e remover/substituir caracteres inválidos, mas o tipo continua sendo string.
  1. Temperatura de cristalização ausente em múltiplas entradas
  • Temperatura é uma medida contínua, logo deve ser representada como ponto flutuante (float).
  • A ausência do valor é tratada por mecanismos de “missing” (ex.: nulo/NaN), mas isso não muda o fato de que o tipo fundamental para a coluna/atributo é numérico contínuo (float).
  1. Grau de hidrofobicidade com formatação não padronizada (inteiro ou decimal com precisão variável)
  • Trata-se também de uma medida contínua, portanto o tipo correto, após padronização, é ponto flutuante.
  • O pré-processamento deve converter representações inteiras e decimais para um mesmo formato numérico (float), garantindo consistência.

Além disso, o enunciado menciona “referências numéricas”, e em bases biológicas é comum existirem campos como contagens (número de resíduos, número de cadeias, número de mutações etc.), que são discretos e, portanto, tipicamente inteiros.

Analisando as alternativas:

  • (A) enums e structs não atacam diretamente os problemas citados (validação de texto e padronização numérica).
  • (B) booleanos/strings não resolvem a necessidade de tipos numéricos contínuos.
  • (C) e (D) falam de estruturas/ponteiros (implementação), não de tipos fundamentais para padronizar atributos.
  • (E) combina exatamente os tipos fundamentais coerentes com os atributos do enunciado: strings (sequências), inteiros (contagens discretas) e floats (temperatura/hidrofobicidade).

Alternativa correta: (E).

Questões relacionadas

Ver últimas questões

Comece a estudar de forma inteligente hoje mesmo

Resolva questões de concursos e vestibulares com IA, gere simulados personalizados e domine os conteúdos que mais caem nas provas.

Cancele quando quiser.