Nesse caso, o que devemos variar ou unir (por...

Questão

Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas e regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Nesse caso, o que devemos variar ou unir (por concatenação de conjunto de dados)?

Explicação

Como a questão ressalta que cada modelo de NLP terá cobertura (isto é, entenderá melhor) a linguagem dos conjuntos sobre os quais aprendeu — incluindo cultura, expressões idiomáticas e regionalismos —, o elemento que devemos variar (para cobrir diferentes variedades linguísticas) ou unir por concatenação (para aumentar a diversidade e abrangência) é o conjunto de textos usado para treinamento.

Em NLP, esse conjunto de textos é chamado de corpus. Ao concatenar corpora de diferentes regiões/variedades (por exemplo, textos do Brasil, Portugal, registros formais/informais etc.), ampliamos a cobertura do modelo sobre essas variações.

Sentenças e tokens são unidades internas do texto, mas a cobertura cultural/regional vem do conjunto de dados como um todo.
Vocabulário (lista de palavras/subpalavras) é consequência do corpus e do tokenizador; não é o principal “alvo” quando o objetivo é cobrir regionalismos.
Dicionário não é, em geral, o objeto de concatenação em treinamento de modelos de NLP modernos.

Alternativa correta: (C).

Questão

Alternativas

Explicação

Questões relacionadas

A ADM (Amplitude de movimento) é definida como:

Flexibilidade deve ser...

O conceito de flexibilidade e mobilidade é:

Nesse dilema, como a jovem pode se preparar melhor para o que virá? Entre tantas alternativas, depender somente do Regime Geral de Previdência Social (RGPS), o famoso INSS, pode não ser suficiente; pensando nisso, outra forma de planejar sua aposentadoria tranquila pode ser:

O que é o calor sensível?

Comece a estudar de forma inteligente hoje mesmo