Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas e regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Nesse caso, o que devemos variar ou unir (por concatenação de conjunto de dados)?
Questão
Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas e regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Nesse caso, o que devemos variar ou unir (por concatenação de conjunto de dados)?
Alternativas
A) Sentenças
B) Tokens
C) Corpus
D) Vocabulário
E) Dicionário
Explicação
Como a questão ressalta que cada modelo de NLP terá cobertura (isto é, entenderá melhor) a linguagem dos conjuntos sobre os quais aprendeu — incluindo cultura, expressões idiomáticas e regionalismos —, o elemento que devemos variar (para cobrir diferentes variedades linguísticas) ou unir por concatenação (para aumentar a diversidade e abrangência) é o conjunto de textos usado para treinamento.
Em NLP, esse conjunto de textos é chamado de corpus. Ao concatenar corpora de diferentes regiões/variedades (por exemplo, textos do Brasil, Portugal, registros formais/informais etc.), ampliamos a cobertura do modelo sobre essas variações.
- Sentenças e tokens são unidades internas do texto, mas a cobertura cultural/regional vem do conjunto de dados como um todo.
- Vocabulário (lista de palavras/subpalavras) é consequência do corpus e do tokenizador; não é o principal “alvo” quando o objetivo é cobrir regionalismos.
- Dicionário não é, em geral, o objeto de concatenação em treinamento de modelos de NLP modernos.
Alternativa correta: (C).