Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto?

Questão

Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto?

Alternativas

A) TF-IDF

97%

B) KNN

C) K-Means

D) Gaussian Naive Bayes

E) LSTM

Explicação

A questão pede um algoritmo/métrica que ajude a determinar a relevância de uma palavra em um texto levando em conta uma série/corpus.

O TF-IDF (Term Frequency–Inverse Document Frequency) é justamente uma medida clássica de Recuperação de Informação e NLP para ponderar termos:

  • TF (frequência do termo) aumenta o peso de uma palavra quanto mais ela aparece no documento.
  • IDF (inversa da frequência em documentos) reduz o peso de palavras muito comuns no corpus (ex.: “de”, “o”, “e”) e aumenta o peso de palavras mais raras e informativas.

Assim, o TF-IDF fornece um peso de relevância para cada palavra considerando o documento e o conjunto de documentos.

As demais alternativas não correspondem a esse objetivo:

  • KNN é um classificador/regressor supervisionado.
  • K-Means é um algoritmo de clusterização, mas não é uma métrica de relevância de palavra.
  • Gaussian Naive Bayes é classificador supervisionado probabilístico.
  • LSTM é um tipo de rede neural recorrente para sequências.

Alternativa correta: (A).

Questões relacionadas

Ver últimas questões

Comece a estudar de forma inteligente hoje mesmo

Resolva questões de concursos e vestibulares com IA, gere simulados personalizados e domine os conteúdos que mais caem nas provas.

Cancele quando quiser.