A equipe do Laboratório de Bioinformática...

Questão

A equipe do Laboratório de Bioinformática Genômica, em um centro de análise de big data, está desenvolvendo um modelo avançado de Inteligência Artificial Generativa para prever a estrutura tridimensional de proteínas, um desafio crucial na descoberta de novos fármacos. Contudo, o projeto enfrenta uma barreira significativa: a base de dados inicial, compilada de diversas fontes públicas e experimentos preliminares, apresenta inconsistências notáveis. Registros de sequências de aminoácidos contêm caracteres inválidos, valores de temperatura de cristalização estão ausentes em múltiplas entradas, e as referências numéricas para o grau de hidrofobicidade das cadeias polipeptídicas aparecem formatadas de maneira não padronizada, ora como inteiros, ora como decimais com precisão variável. Essa heterogeneidade e imprecisão dificultam o pré-processamento e a alimentação dos algoritmos de machine learning, comprometendo a acurácia e a robustez do modelo preditivo.

Identifique os tipos de dados fundamentais que a equipe de bioinformática deve considerar na fase de limpeza e estruturação para garantir a integridade do modelo. Assinale a alternativa que apresenta a combinação mais adequada.

Alternativas

Tipos enumerados para categorias predefinidas e registros (structs) para agrupar informações relacionadas.

Dados booleanos para sinalizar a completude dos registros e cadeias de caracteres para identificadores únicos.

Estruturas de dados como listas encadeadas para sequências e árvores binárias para otimização de busca.

Pointers para otimização de memória em grandes conjuntos de dados e arrays multidimensionais para relações complexas.

Strings para as sequências de aminoácidos, inteiros para contagens discretas e pontos flutuantes para medições contínuas com precisão.

94%

Explicação

O enunciado descreve três problemas típicos de limpeza/estruturação de dados antes de treinar modelos de ML:

Sequências de aminoácidos com caracteres inválidos

Sequências são, fundamentalmente, dados textuais (cadeias de símbolos). Assim, o tipo base adequado é string.
A limpeza aqui envolve validar o alfabeto permitido (por exemplo, letras de aminoácidos) e remover/substituir caracteres inválidos, mas o tipo continua sendo string.

Temperatura de cristalização ausente em múltiplas entradas

Temperatura é uma medida contínua, logo deve ser representada como ponto flutuante (float).
A ausência do valor é tratada por mecanismos de “missing” (ex.: nulo/NaN), mas isso não muda o fato de que o tipo fundamental para a coluna/atributo é numérico contínuo (float).

Grau de hidrofobicidade com formatação não padronizada (inteiro ou decimal com precisão variável)

Trata-se também de uma medida contínua, portanto o tipo correto, após padronização, é ponto flutuante.
O pré-processamento deve converter representações inteiras e decimais para um mesmo formato numérico (float), garantindo consistência.

Além disso, o enunciado menciona “referências numéricas”, e em bases biológicas é comum existirem campos como contagens (número de resíduos, número de cadeias, número de mutações etc.), que são discretos e, portanto, tipicamente inteiros.

Analisando as alternativas:

(A) enums e structs não atacam diretamente os problemas citados (validação de texto e padronização numérica).
(B) booleanos/strings não resolvem a necessidade de tipos numéricos contínuos.
(C) e (D) falam de estruturas/ponteiros (implementação), não de tipos fundamentais para padronizar atributos.
(E) combina exatamente os tipos fundamentais coerentes com os atributos do enunciado: strings (sequências), inteiros (contagens discretas) e floats (temperatura/hidrofobicidade).

Alternativa correta: (E).

bioinformatica ciencia-de-dados computacao pre-processamento-de-dados

Questão

Alternativas

Explicação

Questões relacionadas

Qual é a principal desvantagem da avaliação de desempenho baseada em resultados?

Qual é o principal objetivo da avaliação de desempenho?

Estudos identificam que, no Brasil, na década de 80 do século XX, houve ampliação do mercado de trabalho do assistente social nas empresas, motivada pelo processo de organização política da classe trabalhadora, por meio da fundação de partidos, sindicatos e comissões de fábrica.

Comece a estudar de forma inteligente hoje mesmo