Quando nos referimos à classificação de textos, pensamos no NLTK para fazer a parte de NLP, mas, que biblioteca podemos usar para facilitar nossa tarefa de classificação de textos?
Questão
Quando nos referimos à classificação de textos, pensamos no NLTK para fazer a parte de NLP, mas, que biblioteca podemos usar para facilitar nossa tarefa de classificação de textos?
Alternativas
A) NUMPY
B) POLARS
C) PANDAS
D) SKLEARN
E) DATETIME
Explicação
Para classificação de textos, o NLTK ajuda bastante na parte de processamento de linguagem natural (NLP) (tokenização, stopwords, stemming etc.), mas a etapa de treinar e aplicar modelos de classificação (Naive Bayes, SVM, Regressão Logística, Árvores, etc.) costuma ser muito mais direta com uma biblioteca de machine learning.
A biblioteca mais usada para facilitar a tarefa de classificação em Python é o scikit-learn (SKLEARN), que oferece:
- algoritmos prontos de classificação;
- ferramentas para pipeline (por exemplo,
Pipeline); - vetorização de texto (por exemplo,
CountVectorizer,TfidfVectorizer); - avaliação (acurácia, matriz de confusão, validação cruzada etc.).
As demais opções (NumPy, Polars, Pandas, Datetime) são voltadas principalmente a manipulação de arrays/dados e datas, não sendo bibliotecas focadas em classificação.
Alternativa correta: (D).