Tokens
Módulo 1 · Conceitos Fundamentais
No capítulo anterior aparecemos com a palavra token algumas vezes, e prometemos voltar a ela. Aqui ela ganha capítulo próprio — porque entender tokens é entender três coisas práticas que vão acompanhar todo o seu uso de IA: a memória do modelo, a velocidade da resposta e quanto custa cada interação.
O que é um token
Um token é a unidade básica com que um modelo de linguagem trabalha. Não é exatamente uma palavra, nem uma letra — é um pedaço de texto. O tamanho desse pedaço depende de como o modelo foi treinado.
Para entender intuitivamente: quando você digita uma frase, o modelo a quebra em pedaços antes de processar. Por exemplo, a frase:
A paciente apresentou febre.
Pode ser quebrada (em um modelo típico, em português) como:
[A] [ paciente] [ apresentou] [ febre] [.]
Cinco tokens. Note que:
- O espaço geralmente vem junto com a palavra que ele antecede.
- A pontuação conta como token separado.
- A primeira palavra (“A”) não tem espaço na frente.
Já uma frase com palavras técnicas pode ser quebrada de forma diferente:
O hemograma mostrou leucocitose.
[O] [ hem] [ograma] [ mostrou] [ leuco] [cit] [ose] [.]
Oito tokens — porque “hemograma” e “leucocitose” são palavras menos frequentes em texto comum, e o modelo as decompõe em pedaços mais comuns.
Tratar todas as palavras como tokens inteiros seria custoso (precisaria de vocabulário gigantesco) e ineficiente para palavras raras. Tokenizar em pedaços resolve dois problemas ao mesmo tempo: permite ao modelo lidar com qualquer palavra (mesmo que ele nunca tenha visto antes, basta combinar pedaços) e mantém o vocabulário interno em tamanho razoável (geralmente 50 mil a 200 mil tokens distintos).
Português consome mais tokens que inglês
Um detalhe importante de quem trabalha em português: o mesmo conteúdo, em PT, gasta mais tokens do que em EN. Modelos modernos foram treinados majoritariamente em inglês, então palavras em inglês receberam tokens próprios mais frequentemente; em português, há mais decomposição.
Em média:
- Inglês: 1 palavra ≈ 1,3 tokens
- Português: 1 palavra ≈ 1,7 tokens (cerca de 30% a mais)
Isso significa que, ao trabalhar em PT, todos os limites de janela de contexto e custos de API são, na prática, um pouco menores e um pouco maiores do que sugerem as documentações em inglês.
Como contar (ou estimar) tokens
Para a maior parte dos casos, você não precisa contar tokens exatamente. Mas vale ter uma noção de ordem de grandeza.
Estimativa rápida (regra de bolso)
Para textos em português:
1 token ≈ 4 caracteres (incluindo espaços)
1 token ≈ 0,6 palavras (ou 1 palavra ≈ 1,7 tokens)
Algumas conversões úteis:
| Conteúdo | Tokens aproximados |
|---|---|
| Uma frase média (10–15 palavras) | ~20 tokens |
| Um parágrafo (80–100 palavras) | ~150 tokens |
| Uma página A4 de texto (≈ 500 palavras) | ~850 tokens |
| Um artigo científico de 6 mil palavras | ~10 mil tokens |
| Um capítulo de tese de 20 mil palavras | ~35 mil tokens |
| Esta página inteira que você está lendo | ~3 mil tokens |
Ferramentas para contar exatamente
Quando o número exato importa (por exemplo, ao decidir se um documento cabe na janela de contexto), há ferramentas:
- tiktokenizer.vercel.app — site gratuito que cola um texto e mostra a tokenização visualmente, em vários modelos diferentes (Claude, GPT, Gemini). É o mais didático.
- platform.openai.com/tokenizer — tokenizer oficial da OpenAI (só GPT).
- API de contagem — tanto Anthropic quanto OpenAI oferecem um endpoint específico só para contar tokens em um texto, sem precisar gerar resposta.
Para o que vamos fazer no curso, a estimativa de bolso já resolve 95% dos casos. Só recorra a tokenizers exatos se precisar caber em um limite específico ou estiver investigando um custo inesperado.
Janela de contexto: a “memória” do modelo
A janela de contexto (em inglês, context window) é a quantidade máxima de tokens que o modelo consegue “ver de uma vez”. Inclui:
- Sua mensagem atual;
- Todo o histórico anterior da conversa;
- Documentos ou arquivos anexados;
- Eventuais instruções de sistema (system prompt).
Quando a soma de tudo isso ultrapassa o limite, algo precisa ser removido — geralmente as mensagens mais antigas. É como uma mesa com tamanho fixo: se você empilhar muitos papéis, os de baixo somem.
Tamanhos atuais (maio de 2026)
Para dar sentido aos números, vale comparar com algo concreto:
| Janela | Equivale a… |
|---|---|
| 8 mil tokens | Um artigo curto (~5 páginas) |
| 128 mil tokens | Um livro de 200 páginas |
| 200 mil tokens | Dois livros médios, ou ~80 artigos científicos |
| 1 milhão de tokens | Coleção de uma tese inteira + 30 artigos relacionados |
| 2 milhões de tokens | Bibliografia completa de uma revisão sistemática grande |
Modelos atuais (atualizados conforme evoluem):
- Claude Opus 4.7 — 1 milhão de tokens
- Claude Sonnet 4.6 — 200 mil ou 1 milhão (dependendo da configuração)
- GPT-5 — 200 mil tokens (com extensão para 1 milhão em alguns planos)
- Gemini 2.5 Pro — 2 milhões de tokens
Esses números mudam frequentemente — a tendência tem sido aumentar a cada nova versão. Para um valor atualizado, consulte sempre a página oficial do modelo.
Um modelo com 1 milhão de tokens de contexto consegue receber 1 milhão de tokens, mas não usa todos com a mesma qualidade. Há um fenômeno bem documentado chamado “lost in the middle”: informações no começo e no fim do contexto são tipicamente recuperadas com qualidade muito melhor do que informações no meio.
Implicação prática: ao colocar muitos documentos em um prompt, o que importa mais deve estar no início ou no fim, não enterrado no miolo. Vamos voltar a esse ponto no capítulo de Prompts.
Tokens de entrada e tokens de saída
Há uma distinção importante:
- Tokens de entrada (input tokens) — tudo o que você envia para o modelo: seu prompt, histórico da conversa, arquivos anexados.
- Tokens de saída (output tokens) — tudo o que o modelo responde.
A cobrança (veremos abaixo) trata os dois de forma diferente: tokens de saída custam consideravelmente mais que tokens de entrada — em geral, 3 a 5 vezes mais. Faz sentido: gerar texto novo é o “trabalho duro” do modelo; ler um texto existente é mais barato.
Implicação prática: em uma conversa onde você manda 50 mil tokens (um documento longo) e recebe 2 mil tokens de resposta, a maior parte do custo pode estar na resposta, não na entrada.
Custo por token: como funciona a cobrança na API
Quando você usa o app/chat (Claude.ai, Claude Desktop, ChatGPT.com, Gemini), paga uma assinatura mensal fixa ou usa o plano gratuito com limites — não há cobrança por token. Quando você usa a API (programaticamente, via Claude Code, Codex CLI, Gemini CLI, ou suas próprias chamadas), a cobrança é por token.
A unidade padrão é dólares por milhão de tokens (USD / 1M tokens), separados em input e output. Por exemplo, um modelo pode custar:
Input: $3.00 por milhão de tokens
Output: $15.00 por milhão de tokens
Os preços variam muito por modelo. Em ordem de grandeza, em maio de 2026:
| Tipo de modelo | Input (USD/1M) | Output (USD/1M) |
|---|---|---|
| Modelos flagship (Opus, GPT-5, Pro) | $10–$20 | $50–$100 |
| Modelos médios (Sonnet, GPT-5 mini, Flash) | $1–$5 | $5–$25 |
| Modelos rápidos/baratos (Haiku, GPT-5 nano) | $0,20–$1 | $1–$5 |
Os preços oficiais estão sempre nas páginas:
- Anthropic: anthropic.com/pricing
- OpenAI: openai.com/api/pricing
- Google: ai.google.dev/pricing
Imagine que você pede ao Claude Code (modelo Sonnet) para analisar três artigos científicos (cerca de 30 mil tokens de entrada) e gerar um sumário comparativo de 2 mil tokens de saída.
- Entrada: 30.000 tokens × $3 / 1.000.000 = $0,09
- Saída: 2.000 tokens × $15 / 1.000.000 = $0,03
- Total: ~$0,12 (cerca de 60 centavos de real)
Operações maiores (análise de 50 PDFs, processamento de uma tese inteira) podem chegar a alguns dólares por execução. Para uso de pesquisa típico de um aluno ou professor, gastos mensais ficam tipicamente entre $5 e $30 — comparáveis ou inferiores a uma assinatura mensal de chat.
App ou API: qual sai mais barato?
Depende do volume:
- Usuário leve (algumas conversas por semana): plano gratuito do app já basta. Custo: zero.
- Usuário médio (várias conversas por dia, escrita técnica regular): assinatura mensal do app (Claude Pro / ChatGPT Plus / Gemini Advanced, ~$20/mês) é mais previsível e geralmente sai mais barato que API.
- Usuário pesado (rodando agentes, processando muitos documentos, automações): API costuma sair mais econômica em termos de “custo por trabalho útil”, mas com risco de variação imprevisível.
Vamos aprofundar essa decisão no capítulo seguinte (API × app).
Implicações práticas
Cinco coisas para levar deste capítulo:
Em PT, tudo gasta ~30% mais tokens que em EN. Considere isso ao calcular limites e custos.
Prompts longos custam mais e nem sempre rendem mais. Janela grande não significa que o modelo usa bem todo o contexto.
Resposta longa custa mais que prompt longo (3-5×). Ao pedir uma análise, peça só o que você precisa — uma resposta de 10 mil tokens, em modelo flagship, custa $0,50-$1.
Anexar PDFs e imagens consome muitos tokens. Um PDF de 30 páginas pode virar 25 mil tokens facilmente. Em conversas longas com vários PDFs anexos, o custo cresce rápido.
A escolha do modelo afeta o custo em ~50×. Claude Haiku é cerca de 50× mais barato que Claude Opus. Para tarefas simples (resumir, traduzir, formatar), modelos pequenos resolvem com excelência e a economia é enorme.
O que vem a seguir
O próximo capítulo aprofunda a diferença entre API e app, e ajuda a decidir, com base no que você aprendeu aqui sobre tokens e custos, qual modo de uso faz mais sentido para o seu trabalho.