A equipe do Laboratório de Bioinformática Genômica, em um centro de análise de big data, está desenvolvendo um modelo avançado de Inteligência Artificial Generativa para prever a estrutura tridimensional de proteínas, um desafio crucial na descoberta de novos fármacos. Contudo, o projeto enfrenta uma barreira significativa: a base de dados inicial, compilada de diversas fontes públicas e experimentos preliminares, apresenta inconsistências notáveis. Registros de sequências de aminoácidos contêm caracteres inválidos, valores de temperatura de cristalização estão ausentes em múltiplas entradas, e as referências numéricas para o grau de hidrofobicidade das cadeias polipeptídicas aparecem formatadas de maneira não padronizada, ora como inteiros, ora como decimais com precisão variável. Essa heterogeneidade e imprecisão dificultam o pré-processamento e a alimentação dos algoritmos de machine learning, comprometendo a acurácia e a robustez do modelo preditivo. Identifique os tipos de dados fundamentais que a equipe de bioinformática deve considerar na fase de limpeza e estruturação para garantir a integridade do modelo. Assinale a alternativa que apresenta a combinação mais adequada.
Questão
A equipe do Laboratório de Bioinformática Genômica, em um centro de análise de big data, está desenvolvendo um modelo avançado de Inteligência Artificial Generativa para prever a estrutura tridimensional de proteínas, um desafio crucial na descoberta de novos fármacos. Contudo, o projeto enfrenta uma barreira significativa: a base de dados inicial, compilada de diversas fontes públicas e experimentos preliminares, apresenta inconsistências notáveis. Registros de sequências de aminoácidos contêm caracteres inválidos, valores de temperatura de cristalização estão ausentes em múltiplas entradas, e as referências numéricas para o grau de hidrofobicidade das cadeias polipeptídicas aparecem formatadas de maneira não padronizada, ora como inteiros, ora como decimais com precisão variável. Essa heterogeneidade e imprecisão dificultam o pré-processamento e a alimentação dos algoritmos de machine learning, comprometendo a acurácia e a robustez do modelo preditivo.
Identifique os tipos de dados fundamentais que a equipe de bioinformática deve considerar na fase de limpeza e estruturação para garantir a integridade do modelo. Assinale a alternativa que apresenta a combinação mais adequada.
Alternativas
Tipos enumerados para categorias predefinidas e registros (structs) para agrupar informações relacionadas.
Dados booleanos para sinalizar a completude dos registros e cadeias de caracteres para identificadores únicos.
Estruturas de dados como listas encadeadas para sequências e árvores binárias para otimização de busca.
Pointers para otimização de memória em grandes conjuntos de dados e arrays multidimensionais para relações complexas.
Strings para as sequências de aminoácidos, inteiros para contagens discretas e pontos flutuantes para medições contínuas com precisão.
Explicação
O enunciado descreve três problemas típicos de limpeza/estruturação de dados antes de treinar modelos de ML:
- Sequências de aminoácidos com caracteres inválidos
- Sequências são, fundamentalmente, dados textuais (cadeias de símbolos). Assim, o tipo base adequado é string.
- A limpeza aqui envolve validar o alfabeto permitido (por exemplo, letras de aminoácidos) e remover/substituir caracteres inválidos, mas o tipo continua sendo string.
- Temperatura de cristalização ausente em múltiplas entradas
- Temperatura é uma medida contínua, logo deve ser representada como ponto flutuante (float).
- A ausência do valor é tratada por mecanismos de “missing” (ex.: nulo/NaN), mas isso não muda o fato de que o tipo fundamental para a coluna/atributo é numérico contínuo (float).
- Grau de hidrofobicidade com formatação não padronizada (inteiro ou decimal com precisão variável)
- Trata-se também de uma medida contínua, portanto o tipo correto, após padronização, é ponto flutuante.
- O pré-processamento deve converter representações inteiras e decimais para um mesmo formato numérico (float), garantindo consistência.
Além disso, o enunciado menciona “referências numéricas”, e em bases biológicas é comum existirem campos como contagens (número de resíduos, número de cadeias, número de mutações etc.), que são discretos e, portanto, tipicamente inteiros.
Analisando as alternativas:
- (A) enums e structs não atacam diretamente os problemas citados (validação de texto e padronização numérica).
- (B) booleanos/strings não resolvem a necessidade de tipos numéricos contínuos.
- (C) e (D) falam de estruturas/ponteiros (implementação), não de tipos fundamentais para padronizar atributos.
- (E) combina exatamente os tipos fundamentais coerentes com os atributos do enunciado: strings (sequências), inteiros (contagens discretas) e floats (temperatura/hidrofobicidade).
Alternativa correta: (E).