O Natural Language Toolkit, ou mais comumente NLTK, é um conjunto de bibliotecas e programas para processamento simbólico e estatístico de linguagem natural para inglês escrito na linguagem de programação Python. Qual processo podemos aplicar a esse framework para dividir uma frase em palavras ou tokens individuais?
Questão
O Natural Language Toolkit, ou mais comumente NLTK, é um conjunto de bibliotecas e programas para processamento simbólico e estatístico de linguagem natural para inglês escrito na linguagem de programação Python. Qual processo podemos aplicar a esse framework para dividir uma frase em palavras ou tokens individuais?
Alternativas
A) N-gramas
B) Tokenização
C) Lematização
D) Stemização
E) Acentuação
Explicação
A pergunta pede o processo no NLTK usado para dividir uma frase em palavras (tokens) individuais.
- Tokenização é exatamente a etapa de segmentar o texto em unidades menores chamadas tokens (por exemplo, palavras e pontuação).
- N-gramas formam sequências de tokens (dependem de já ter tokenizado).
- Lematização reduz palavras à sua forma canônica (lema), e stemização reduz ao radical — ambas ocorrem depois de ter os tokens.
- Acentuação não é o processo padrão para dividir frases em tokens.
Alternativa correta: (B).