O Natural Language Toolkit, ou mais comumente NLTK, é um conjunto de bibliotecas e programas para processamento simbólico e estatístico de linguagem natural para inglês escrito na linguagem de programação Python. Qual processo podemos aplicar a esse framework para dividir uma frase em palavras ou tokens individuais?

Questão

O Natural Language Toolkit, ou mais comumente NLTK, é um conjunto de bibliotecas e programas para processamento simbólico e estatístico de linguagem natural para inglês escrito na linguagem de programação Python. Qual processo podemos aplicar a esse framework para dividir uma frase em palavras ou tokens individuais?

Alternativas

A) N-gramas

B) Tokenização

98%

C) Lematização

D) Stemização

E) Acentuação

Explicação

A pergunta pede o processo no NLTK usado para dividir uma frase em palavras (tokens) individuais.

  • Tokenização é exatamente a etapa de segmentar o texto em unidades menores chamadas tokens (por exemplo, palavras e pontuação).
  • N-gramas formam sequências de nn tokens (dependem de já ter tokenizado).
  • Lematização reduz palavras à sua forma canônica (lema), e stemização reduz ao radical — ambas ocorrem depois de ter os tokens.
  • Acentuação não é o processo padrão para dividir frases em tokens.

Alternativa correta: (B).

Questões relacionadas

Ver últimas questões

Comece a estudar de forma inteligente hoje mesmo

Resolva questões de concursos e vestibulares com IA, gere simulados personalizados e domine os conteúdos que mais caem nas provas.

Cancele quando quiser.