Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto?
Questão
Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto?
Alternativas
A) TF-IDF
B) KNN
C) K-Means
D) Gaussian Naive Bayes
E) LSTM
Explicação
A questão pede um algoritmo/métrica que ajude a determinar a relevância de uma palavra em um texto levando em conta uma série/corpus.
O TF-IDF (Term Frequency–Inverse Document Frequency) é justamente uma medida clássica de Recuperação de Informação e NLP para ponderar termos:
- TF (frequência do termo) aumenta o peso de uma palavra quanto mais ela aparece no documento.
- IDF (inversa da frequência em documentos) reduz o peso de palavras muito comuns no corpus (ex.: “de”, “o”, “e”) e aumenta o peso de palavras mais raras e informativas.
Assim, o TF-IDF fornece um peso de relevância para cada palavra considerando o documento e o conjunto de documentos.
As demais alternativas não correspondem a esse objetivo:
- KNN é um classificador/regressor supervisionado.
- K-Means é um algoritmo de clusterização, mas não é uma métrica de relevância de palavra.
- Gaussian Naive Bayes é classificador supervisionado probabilístico.
- LSTM é um tipo de rede neural recorrente para sequências.
Alternativa correta: (A).