Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas e regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Nesse caso, o que devemos variar ou unir (por concatenação de conjunto de dados)?

Questão

Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas e regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Nesse caso, o que devemos variar ou unir (por concatenação de conjunto de dados)?

Alternativas

A) Sentenças

B) Tokens

C) Corpus

94%

D) Vocabulário

E) Dicionário

Explicação

Como a questão ressalta que cada modelo de NLP terá cobertura (isto é, entenderá melhor) a linguagem dos conjuntos sobre os quais aprendeu — incluindo cultura, expressões idiomáticas e regionalismos —, o elemento que devemos variar (para cobrir diferentes variedades linguísticas) ou unir por concatenação (para aumentar a diversidade e abrangência) é o conjunto de textos usado para treinamento.

Em NLP, esse conjunto de textos é chamado de corpus. Ao concatenar corpora de diferentes regiões/variedades (por exemplo, textos do Brasil, Portugal, registros formais/informais etc.), ampliamos a cobertura do modelo sobre essas variações.

  • Sentenças e tokens são unidades internas do texto, mas a cobertura cultural/regional vem do conjunto de dados como um todo.
  • Vocabulário (lista de palavras/subpalavras) é consequência do corpus e do tokenizador; não é o principal “alvo” quando o objetivo é cobrir regionalismos.
  • Dicionário não é, em geral, o objeto de concatenação em treinamento de modelos de NLP modernos.

Alternativa correta: (C).

Questões relacionadas

Ver últimas questões

Comece a estudar de forma inteligente hoje mesmo

Resolva questões de concursos e vestibulares com IA, gere simulados personalizados e domine os conteúdos que mais caem nas provas.

Cancele quando quiser.