| Variável | Níveis | Nº de níveis | Ordem? |
|---|---|---|---|
| Nominais | |||
| Tipo sanguíneo | A, B, AB, O | 4 | Não |
| Cor dos olhos | castanho, azul, verde, ... | variável | Não |
| Sexo | masculino, feminino, outro | 3 | Não |
| Nominais binárias | |||
| Diagnóstico | presente, ausente | 2 | Não |
| Óbito | sim, não | 2 | Não |
| Exposição | sim, não | 2 | Não |
| Ordinais | |||
| Estadiamento do câncer | I < II < III < IV | 4 | Sim |
| Escala de dor | leve < moderada < intensa | 3 | Sim |
| Classe funcional (NYHA) | I < II < III < IV | 4 | Sim |
Dados Categóricos
Nominais, ordinais, binários
A história
Em 1662, um comerciante de tecidos londrino chamado John Graunt publicou um pequeno livro que mudaria a história da saúde pública: Natural and Political Observations upon the Bills of Mortality. Graunt não era médico, nem matemático — era um mercador curioso que decidiu examinar sistematicamente os registros semanais de mortes em Londres, os chamados Bills of Mortality, que a igreja publicava desde o século XVI (1,2).
O que Graunt fez com esses registros foi extraordinariamente original: ele categorizou. Cada óbito era classificado por causa — “consumptyon” (tuberculose), “plague” (peste), “drowned” (afogamento), “aged” (velhice), “teeth” (problemas dentários em crianças). A partir dessas categorias, ele construiu tabelas de frequência — possivelmente as primeiras da história — e descobriu padrões que ninguém havia notado: que a proporção de mortes por causas violentas era surpreendentemente estável de ano para ano; que os nascimentos masculinos superavam os femininos numa razão constante de 14 para 13; e que, em anos sem peste, a mortalidade urbana era maior que a rural (1,3).
Graunt também enfrentou um problema que todo pesquisador moderno reconhecerá: as categorias não eram padronizadas. Uma morte registrada como “teeth” em uma paróquia podia ser registrada como “convulsion” em outra. O mesmo óbito podia ser atribuído a “fever” ou a “spotted feaver” dependendo de quem preenchia o formulário. Graunt precisou decidir como agrupar, renomear e consolidar essas categorias para que suas tabelas fizessem sentido — exercendo, sem saber, o papel que todo pesquisador exerce ao definir os níveis de uma variável categórica.
Com esse trabalho, Graunt é considerado o fundador da demografia e um dos pais da epidemiologia. Seu legado mais duradouro, porém, foi demonstrar que contar categorias — algo aparentemente trivial — é uma das ferramentas mais poderosas da ciência.
Dados categóricos não são dados “simples”. A decisão de quais categorias criar e como agrupar os casos é uma decisão metodológica com consequências diretas para as conclusões. Graunt sabia disso em 1662 — e a lição continua válida.
O que são dados categóricos?
Dados categóricos (ou qualitativos) representam qualidades. Não faz sentido calcular a “média” de uma variável categórica — a média de “feminino” e “masculino” não existe (4). A diferença fundamental em relação aos dados numéricos é que, para dados categóricos, as operações aritméticas (soma, subtração, média) não têm significado. As operações que fazem sentido são contar (quantos sujeitos em cada categoria) e comparar proporções (que fração do total pertence a cada grupo).
Dados categóricos se subdividem em dois tipos, de acordo com a existência ou não de uma ordem entre as categorias. Quando as categorias não possuem hierarquia chamamos a variável de nominal. Quando existe uma ordenação natural entre os níveis chamamos de ordinal. As variáveis nominais, quando tem apenas dois níveis, são um tipo especial de variáveis nominais, usualmente chamadas de nominais binárias.
Categóricos Nominais: categorias sem ordem
Dados nominais classificam sujeitos em categorias sem qualquer relação de hierarquia. Reorganizar os níveis em qualquer sequência não altera o significado — “A, B, AB, O” é tão válido quanto “O, A, B, AB” (4,5).
A única operação de comparação possível é a de igualdade: dois sujeitos estão na mesma categoria ou em categorias diferentes. Não existe “maior” ou “menor” entre os níveis.
Exemplos em saúde: tipo sanguíneo (A, B, AB, O), sexo (feminino, masculino), cor dos olhos, estado civil, cidade de residência, diagnóstico principal (infarto, AVC, pneumonia).
No nosso estudo, as variáveis sexo e cidade são nominais. A forma natural de apresentar dados nominais é a tabela de frequência — exatamente como Graunt fazia no século XVII. A tabela mostra quantos sujeitos pertencem a cada categoria (frequência absoluta, n) e qual fração do total cada categoria representa (frequência relativa, %).
| Sexo | n | % | IC 95% |
|---|---|---|---|
| female | 234 | 58.1 | 53.3 – 62.9 |
| male | 169 | 41.9 | 37.1 – 46.7 |
| Cidade | n | % |
|---|---|---|
| Buckingham | 200 | 49.6 |
| Louisa | 203 | 50.4 |
Quando a variável tem poucas categorias — como sexo, com apenas dois níveis — a tabela é suficiente. Mas quando há muitas categorias, o gráfico de barras torna a comparação visual imediata. No dataset beer, que contém mais de 8.000 cervejas artesanais de diversos países, a variável country é nominal com dezenas de níveis. Vejamos os dez países com maior número de rótulos:
Note que as barras estão ordenadas por frequência — mas poderiam estar em ordem alfabética ou qualquer outra. Para dados nominais, a ordem das barras é uma escolha estética, não uma propriedade dos dados. Reorganizar os países não muda a informação, mas torna o gráfico muito mais fácil de interpretar.
Categóricos Nominais binários
Um caso particular — e extremamente frequente em saúde — são as variáveis nominais com exatamente dois níveis: as variáveis binárias (ou dicotômicas). Exemplos: diagnóstico (presente/ausente), desfecho (óbito/alta), exposição (sim/não), teste diagnóstico (positivo/negativo).
Variáveis binárias ocupam uma posição especial na estatística porque podem ser codificadas como 0 e 1 — o que permite calcular a proporção diretamente como uma média aritmética. Se codificamos “male” = 1 e “female” = 0, a média da variável será a proporção de homens na amostra. Essa propriedade é a base de modelos como a regressão logística.
Quando codificamos sexo como 0 e 1, estamos criando uma representação numérica de uma variável categórica. Os números são rótulos, não magnitudes — o “1” não é “maior” que o “0” em termos de grandeza. Essa distinção é crucial para não tratar uma codificação como uma medição.
Categóricos Ordinais
Dados ordinais classificam sujeitos em categorias que possuem uma hierarquia natural — uma relação de “maior que” ou “menor que” — mas cujas distâncias entre os níveis não são necessariamente iguais (4,5).
Sabemos que um tumor em estágio III é mais avançado que um em estágio II. Mas não podemos afirmar que a “distância” entre estágio I e II é a mesma que entre II e III — a progressão tumoral não segue incrementos uniformes.
Exemplos em saúde: estadiamento de câncer (I < II < III < IV), classe funcional NYHA (I–IV), escala de dor (leve < moderada < intensa), classificação ASA de risco cirúrgico (I–V), escolaridade (fundamental < médio < superior).
No nosso estudo, a variável biotipo é ordinal:
| Biotipo | n | % | % acumulado |
|---|---|---|---|
| small | 104 | 26.6 | 26.6 |
| medium | 184 | 47.1 | 73.7 |
| large | 103 | 26.3 | 100.0 |
Note a coluna % acumulado — ela faz sentido para dados ordinais (57,6% dos pacientes são small ou medium), mas não faria sentido para dados nominais (o “% acumulado” de tipo sanguíneo A + B não tem interpretação útil).
Para ilustrar melhor a importância da ordenação, vejamos outro exemplo. O dataset escolaridade contém 300 registros fictícios com proporções baseadas na PNAD Contínua. A variável escolaridade tem seis níveis ordenados — de “Fundamental incompleto” a “Pós-graduação”. Quando representamos essa variável num gráfico de barras, a ordem das barras deve respeitar a hierarquia dos níveis:
Compare com o que acontece quando deixamos o software ordenar as categorias por conta própria — geralmente em ordem alfabética:
A diferença é evidente. No primeiro gráfico, o leitor enxerga imediatamente a distribuição da população por grau de instrução — a concentração no ensino médio, a queda acentuada no superior incompleto. No segundo, as categorias estão embaralhadas e a leitura se perde. Para dados nominais, como os países do gráfico anterior, qualquer ordem serve. Para dados ordinais, a ordem é parte da informação.
A mediana como medida central
Para dados ordinais, a mediana é a medida de tendência central adequada — ela identifica o nível “central” da distribuição. A moda (o nível mais frequente) também é válida. A média, porém, não tem sentido: requer distâncias iguais entre os níveis, algo que dados ordinais não garantem (6).
| n | Moda | Mediana |
|---|---|---|
| 391 | medium | medium |
Os níveis são definidos pelo pesquisador
Uma das ideias mais importantes sobre dados categóricos — e uma extensão direta da lição de Graunt — é que os níveis de uma variável categórica são uma decisão do pesquisador. A mesma realidade pode ser categorizada de formas diferentes, e essa decisão tem consequências diretas para a análise.
Considere a variável “escolaridade”. Um pesquisador pode defini-la com três níveis (fundamental, médio, superior), com cinco (fundamental incompleto, fundamental completo, médio, superior incompleto, superior completo) ou até com categorias mais detalhadas que incluam pós-graduação. Cada escolha gera uma variável diferente — com granularidade diferente e poder de discriminação diferente.
| Variável | Versão | Níveis |
|---|---|---|
| Escolaridade | 3 níveis | Fundamental, Médio, Superior |
| Escolaridade | 5 níveis | Fund. incompleto, Fund. completo, Médio, Sup. incompleto, Sup. completo |
| Escolaridade | 7 níveis | Inclui pós-graduação (mestrado, doutorado) |
| IMC | 2 níveis | Normal, Excesso de peso |
| IMC | 4 níveis | Baixo peso, Normal, Sobrepeso, Obesidade |
| IMC | 6 níveis | Inclui graus de obesidade (I, II, III) |
| Dor | 2 níveis | Sim, Não |
| Dor | 4 níveis | Ausente, Leve, Moderada, Intensa |
| Dor | 11 níveis | Escala numérica 0–10 (tratada como ordinal) |
Aumentar o número de níveis aumenta a granularidade, mas pode reduzir o tamanho amostral em cada nível, dificultando comparações estatísticas. A escolha ideal equilibra precisão clínica com viabilidade analítica. Uma regra prática: cada nível deve conter casos suficientes para que as frequências sejam interpretáveis.
Tabelas de contingência: cruzando categorias
Quando queremos analisar a associação entre duas variáveis categóricas, usamos uma tabela de contingência (ou tabela cruzada). Cada célula mostra a frequência de sujeitos que pertencem simultaneamente a uma categoria de cada variável.
| Sexo | Small | Medium | Large | Total |
|---|---|---|---|---|
| female | 69 | 116 | 42 | 227 |
| male | 35 | 68 | 61 | 164 |
A tabela de contingência é o ponto de partida para testes de associação como o qui-quadrado (χ²) e o teste exato de Fisher — os equivalentes categóricos do teste t e da correlação para dados numéricos.
A tabela de contingência resume os dados numericamente, mas nem sempre permite perceber de imediato os padrões de distribuição. Por isso, é útil complementar a tabela com um gráfico. No gráfico de barras empilhadas proporcionais, cada barra corresponde a um sexo, e cada segmento indica a proporção de indivíduos classificados em cada biotipo. Esse tipo de visualização ajuda a comparar se a distribuição dos biotipos é semelhante ou diferente entre os grupos.
Se as proporções dos segmentos forem parecidas entre as barras, isso sugere distribuições semelhantes entre os sexos. Se houver diferenças visíveis no tamanho relativo dos segmentos, isso pode indicar uma possível associação entre as variáveis, a ser formalmente avaliada por testes como o qui-quadrado ou o teste exato de Fisher.
O perigo dos números que parecem numéricos
Um dos erros mais comuns em pesquisa é tratar variáveis categóricas ordinais como se fossem numéricas — simplesmente porque os níveis foram codificados com números. Se atribuímos 1 = leve, 2 = moderado, 3 = grave a uma escala de dor, o software aceita calcular a “média = 2,3” sem nenhum protesto. Mas essa média não tem significado clínico: ela pressupõe que a distância entre “leve” e “moderado” é a mesma que entre “moderado” e “grave” — o que raramente é verdade (7,8).
| Nível de dor | Codificação A | Codificação B | Codificação C |
|---|---|---|---|
| Leve | 1 | 1 | 1 |
| Moderado | 2 | 2 | 3 |
| Grave | 3 | 5 | 10 |
Se tivermos 3 pacientes com dor leve, 5 com moderada e 2 com grave, a “média” será 1,9 na codificação A, 2,3 na B e 4,1 na C — três respostas diferentes para os mesmos dados. A média é um artefato da codificação, não uma propriedade dos dados.
O exemplo mais debatido desse dilema é a escala de Likert — aquela em que o respondente marca seu grau de concordância de “discordo totalmente” (1) a “concordo totalmente” (5). Pode-se calcular a média de respostas Likert? Existem argumentos apaixonados dos dois lados. Esse debate — que envolve as contribuições de Jamieson, Norman, Carifio e outros — é o tema central do Capítulo 6 (9).
Como reportar dados categóricos
A forma padrão de reportar dados categóricos em artigos científicos é por meio de frequências absolutas e relativas (n e %), organizadas em tabelas:
| Variável | Nível | n | % |
|---|---|---|---|
| Sexo | female | 234 | 58.1 |
| Sexo | male | 169 | 41.9 |
| Biotipo | small | 104 | 26.6 |
| Biotipo | medium | 184 | 47.1 |
| Biotipo | large | 103 | 26.3 |
| Cidade | Buckingham | 200 | 49.6 |
| Cidade | Louisa | 203 | 50.4 |
Reportar apenas a porcentagem sem o n absoluto dificulta a interpretação — 50% pode significar 5 de 10 ou 500 de 1000. A convenção é apresentar ambos: n (%), como em “feminino: 234 (58,1%)”. Isso permite ao leitor avaliar tanto a proporção quanto a precisão da estimativa.
Nominal vs. ordinal: resumo comparativo
| Aspecto | Nominal | Ordinal |
|---|---|---|
| Ordem entre níveis | Não existe | Existe (hierarquia natural) |
| Medida de centro | Moda | Mediana |
| Frequência acumulada | Sem sentido | Faz sentido (% acumulado) |
| Codificação numérica | Rótulos arbitrários (0/1) | Reflete a ordem, mas distâncias não garantidas |
| Gráfico | Barras (qualquer ordem) | Barras (ordem fixa) |
| Teste de associação | Qui-quadrado, Fisher | Mann-Whitney, Kruskal-Wallis |
| Exemplo do estudo | Sexo (female, male) | Biotipo (small < medium < large) |
Resumo do capítulo
| Conceito | Definição | Exemplo do estudo |
|---|---|---|
| Variáveis nominais | Categorias sem ordem; rótulos intercambiáveis | Sexo, tipo sanguíneo, cidade |
| Variáveis ordinais | Categorias com hierarquia; ordem sem distâncias iguais | Biotipo, estadiamento de câncer, escala de dor |
| Variáveis binárias | Caso especial com exatamente dois níveis (sim/não, 0/1) | Sexo (female/male), óbito (sim/não) |
| Níveis | As categorias possíveis, definidas pelo pesquisador antes da coleta | Biotipo: small, medium, large — definidos pelo protocolo |
| Tabela de frequência | Frequência absoluta (n) e relativa (%) por nível | Female: 234 (58,1%); Male: 169 (41,9%) |
| Tabela de contingência | Cruzamento de duas variáveis categóricas (linha × coluna) | Sexo × biotipo: quantos homens são 'large'? |
| Gráfico de barras | Representação visual adequada para dados categóricos | Barras verticais com proporção (%) no eixo y |
Este capítulo apresentou os dados categóricos — nominais, ordinais e suas propriedades. No próximo capítulo, enfrentaremos os casos especiais: variáveis que desafiam a classificação simples, como a escala de Likert, o IMC (contínuo que vira categórico) e outros limites entre o numérico e o categórico.