Dados Categóricos

Nominais, ordinais, binários

A história

Em 1662, um comerciante de tecidos londrino chamado John Graunt publicou um pequeno livro que mudaria a história da saúde pública: Natural and Political Observations upon the Bills of Mortality. Graunt não era médico, nem matemático — era um mercador curioso que decidiu examinar sistematicamente os registros semanais de mortes em Londres, os chamados Bills of Mortality, que a igreja publicava desde o século XVI (1,2).

O que Graunt fez com esses registros foi extraordinariamente original: ele categorizou. Cada óbito era classificado por causa — “consumptyon” (tuberculose), “plague” (peste), “drowned” (afogamento), “aged” (velhice), “teeth” (problemas dentários em crianças). A partir dessas categorias, ele construiu tabelas de frequência — possivelmente as primeiras da história — e descobriu padrões que ninguém havia notado: que a proporção de mortes por causas violentas era surpreendentemente estável de ano para ano; que os nascimentos masculinos superavam os femininos numa razão constante de 14 para 13; e que, em anos sem peste, a mortalidade urbana era maior que a rural (1,3).

Graunt também enfrentou um problema que todo pesquisador moderno reconhecerá: as categorias não eram padronizadas. Uma morte registrada como “teeth” em uma paróquia podia ser registrada como “convulsion” em outra. O mesmo óbito podia ser atribuído a “fever” ou a “spotted feaver” dependendo de quem preenchia o formulário. Graunt precisou decidir como agrupar, renomear e consolidar essas categorias para que suas tabelas fizessem sentido — exercendo, sem saber, o papel que todo pesquisador exerce ao definir os níveis de uma variável categórica.

Com esse trabalho, Graunt é considerado o fundador da demografia e um dos pais da epidemiologia. Seu legado mais duradouro, porém, foi demonstrar que contar categorias — algo aparentemente trivial — é uma das ferramentas mais poderosas da ciência.

DicaA lição de Graunt

Dados categóricos não são dados “simples”. A decisão de quais categorias criar e como agrupar os casos é uma decisão metodológica com consequências diretas para as conclusões. Graunt sabia disso em 1662 — e a lição continua válida.

O que são dados categóricos?

Dados categóricos (ou qualitativos) representam qualidades. Não faz sentido calcular a “média” de uma variável categórica — a média de “feminino” e “masculino” não existe (4). A diferença fundamental em relação aos dados numéricos é que, para dados categóricos, as operações aritméticas (soma, subtração, média) não têm significado. As operações que fazem sentido são contar (quantos sujeitos em cada categoria) e comparar proporções (que fração do total pertence a cada grupo).

Dados categóricos se subdividem em dois tipos, de acordo com a existência ou não de uma ordem entre as categorias. Quando as categorias não possuem hierarquia chamamos a variável de nominal. Quando existe uma ordenação natural entre os níveis chamamos de ordinal. As variáveis nominais, quando tem apenas dois níveis, são um tipo especial de variáveis nominais, usualmente chamadas de nominais binárias.

Tabela 1: Exemplos de variáveis categóricas em pesquisa em saúde — nominais, binárias e ordinais.
Variável Níveis Nº de níveis Ordem?
Nominais
Tipo sanguíneo A, B, AB, O 4 Não
Cor dos olhos castanho, azul, verde, ... variável Não
Sexo masculino, feminino, outro 3 Não
Nominais binárias
Diagnóstico presente, ausente 2 Não
Óbito sim, não 2 Não
Exposição sim, não 2 Não
Ordinais
Estadiamento do câncer I < II < III < IV 4 Sim
Escala de dor leve < moderada < intensa 3 Sim
Classe funcional (NYHA) I < II < III < IV 4 Sim

Categóricos Nominais: categorias sem ordem

Dados nominais classificam sujeitos em categorias sem qualquer relação de hierarquia. Reorganizar os níveis em qualquer sequência não altera o significado — “A, B, AB, O” é tão válido quanto “O, A, B, AB” (4,5).

A única operação de comparação possível é a de igualdade: dois sujeitos estão na mesma categoria ou em categorias diferentes. Não existe “maior” ou “menor” entre os níveis.

Exemplos em saúde: tipo sanguíneo (A, B, AB, O), sexo (feminino, masculino), cor dos olhos, estado civil, cidade de residência, diagnóstico principal (infarto, AVC, pneumonia).

No nosso estudo, as variáveis sexo e cidade são nominais. A forma natural de apresentar dados nominais é a tabela de frequência — exatamente como Graunt fazia no século XVII. A tabela mostra quantos sujeitos pertencem a cada categoria (frequência absoluta, n) e qual fração do total cada categoria representa (frequência relativa, %).

Tabela 2: Distribuição de frequência da variável sexo — uma variável nominal binária.
Sexo n % IC 95%
female 234 58.1 53.3 – 62.9
male 169 41.9 37.1 – 46.7
Tabela 3: Distribuição de frequência da variável cidade.
Cidade n %
Buckingham 200 49.6
Louisa 203 50.4

Quando a variável tem poucas categorias — como sexo, com apenas dois níveis — a tabela é suficiente. Mas quando há muitas categorias, o gráfico de barras torna a comparação visual imediata. No dataset beer, que contém mais de 8.000 cervejas artesanais de diversos países, a variável country é nominal com dezenas de níveis. Vejamos os dez países com maior número de rótulos:

Figura 1: Gráfico de barras para o país de origem — uma variável nominal. A ordem das barras é arbitrária (aqui, por frequência), porque não existe hierarquia entre países.

Note que as barras estão ordenadas por frequência — mas poderiam estar em ordem alfabética ou qualquer outra. Para dados nominais, a ordem das barras é uma escolha estética, não uma propriedade dos dados. Reorganizar os países não muda a informação, mas torna o gráfico muito mais fácil de interpretar.

Categóricos Nominais binários

Um caso particular — e extremamente frequente em saúde — são as variáveis nominais com exatamente dois níveis: as variáveis binárias (ou dicotômicas). Exemplos: diagnóstico (presente/ausente), desfecho (óbito/alta), exposição (sim/não), teste diagnóstico (positivo/negativo).

Variáveis binárias ocupam uma posição especial na estatística porque podem ser codificadas como 0 e 1 — o que permite calcular a proporção diretamente como uma média aritmética. Se codificamos “male” = 1 e “female” = 0, a média da variável será a proporção de homens na amostra. Essa propriedade é a base de modelos como a regressão logística.

NotaBinária nominal ≠ binária numérica

Quando codificamos sexo como 0 e 1, estamos criando uma representação numérica de uma variável categórica. Os números são rótulos, não magnitudes — o “1” não é “maior” que o “0” em termos de grandeza. Essa distinção é crucial para não tratar uma codificação como uma medição.

Categóricos Ordinais

Dados ordinais classificam sujeitos em categorias que possuem uma hierarquia natural — uma relação de “maior que” ou “menor que” — mas cujas distâncias entre os níveis não são necessariamente iguais (4,5).

Sabemos que um tumor em estágio III é mais avançado que um em estágio II. Mas não podemos afirmar que a “distância” entre estágio I e II é a mesma que entre II e III — a progressão tumoral não segue incrementos uniformes.

Exemplos em saúde: estadiamento de câncer (I < II < III < IV), classe funcional NYHA (I–IV), escala de dor (leve < moderada < intensa), classificação ASA de risco cirúrgico (I–V), escolaridade (fundamental < médio < superior).

No nosso estudo, a variável biotipo é ordinal:

Tabela 4: Distribuição do biotipo — uma variável ordinal. A ordem dos níveis importa.
Biotipo n % % acumulado
small 104 26.6 26.6
medium 184 47.1 73.7
large 103 26.3 100.0

Note a coluna % acumulado — ela faz sentido para dados ordinais (57,6% dos pacientes são small ou medium), mas não faria sentido para dados nominais (o “% acumulado” de tipo sanguíneo A + B não tem interpretação útil).

Para ilustrar melhor a importância da ordenação, vejamos outro exemplo. O dataset escolaridade contém 300 registros fictícios com proporções baseadas na PNAD Contínua. A variável escolaridade tem seis níveis ordenados — de “Fundamental incompleto” a “Pós-graduação”. Quando representamos essa variável num gráfico de barras, a ordem das barras deve respeitar a hierarquia dos níveis:

Figura 2: Escolaridade em ordem correta — as barras seguem a hierarquia natural dos níveis, do menor para o maior grau de instrução.

Compare com o que acontece quando deixamos o software ordenar as categorias por conta própria — geralmente em ordem alfabética:

Figura 3: Escolaridade em ordem alfabética — a hierarquia desaparece e o gráfico perde o sentido. ‘Ensino médio’ aparece antes de ‘Fundamental’, e ‘Pós-graduação’ antes de ‘Superior’.

A diferença é evidente. No primeiro gráfico, o leitor enxerga imediatamente a distribuição da população por grau de instrução — a concentração no ensino médio, a queda acentuada no superior incompleto. No segundo, as categorias estão embaralhadas e a leitura se perde. Para dados nominais, como os países do gráfico anterior, qualquer ordem serve. Para dados ordinais, a ordem é parte da informação.

A mediana como medida central

Para dados ordinais, a mediana é a medida de tendência central adequada — ela identifica o nível “central” da distribuição. A moda (o nível mais frequente) também é válida. A média, porém, não tem sentido: requer distâncias iguais entre os níveis, algo que dados ordinais não garantem (6).

Tabela 5: Medida de tendência central para o biotipo — a mediana identifica o nível central.
n Moda Mediana
391 medium medium

Os níveis são definidos pelo pesquisador

Uma das ideias mais importantes sobre dados categóricos — e uma extensão direta da lição de Graunt — é que os níveis de uma variável categórica são uma decisão do pesquisador. A mesma realidade pode ser categorizada de formas diferentes, e essa decisão tem consequências diretas para a análise.

Considere a variável “escolaridade”. Um pesquisador pode defini-la com três níveis (fundamental, médio, superior), com cinco (fundamental incompleto, fundamental completo, médio, superior incompleto, superior completo) ou até com categorias mais detalhadas que incluam pós-graduação. Cada escolha gera uma variável diferente — com granularidade diferente e poder de discriminação diferente.

Tabela 6: A mesma variável, diferentes níveis — a granularidade é decisão do pesquisador.
Variável Versão Níveis
Escolaridade 3 níveis Fundamental, Médio, Superior
Escolaridade 5 níveis Fund. incompleto, Fund. completo, Médio, Sup. incompleto, Sup. completo
Escolaridade 7 níveis Inclui pós-graduação (mestrado, doutorado)
IMC 2 níveis Normal, Excesso de peso
IMC 4 níveis Baixo peso, Normal, Sobrepeso, Obesidade
IMC 6 níveis Inclui graus de obesidade (I, II, III)
Dor 2 níveis Sim, Não
Dor 4 níveis Ausente, Leve, Moderada, Intensa
Dor 11 níveis Escala numérica 0–10 (tratada como ordinal)
ImportanteMais níveis nem sempre é melhor

Aumentar o número de níveis aumenta a granularidade, mas pode reduzir o tamanho amostral em cada nível, dificultando comparações estatísticas. A escolha ideal equilibra precisão clínica com viabilidade analítica. Uma regra prática: cada nível deve conter casos suficientes para que as frequências sejam interpretáveis.

Tabelas de contingência: cruzando categorias

Quando queremos analisar a associação entre duas variáveis categóricas, usamos uma tabela de contingência (ou tabela cruzada). Cada célula mostra a frequência de sujeitos que pertencem simultaneamente a uma categoria de cada variável.

Tabela 7: Tabela de contingência — sexo vs. biotipo. Cada célula é uma combinação de categorias.
Sexo Small Medium Large Total
female 69 116 42 227
male 35 68 61 164

A tabela de contingência é o ponto de partida para testes de associação como o qui-quadrado (χ²) e o teste exato de Fisher — os equivalentes categóricos do teste t e da correlação para dados numéricos.

A tabela de contingência resume os dados numericamente, mas nem sempre permite perceber de imediato os padrões de distribuição. Por isso, é útil complementar a tabela com um gráfico. No gráfico de barras empilhadas proporcionais, cada barra corresponde a um sexo, e cada segmento indica a proporção de indivíduos classificados em cada biotipo. Esse tipo de visualização ajuda a comparar se a distribuição dos biotipos é semelhante ou diferente entre os grupos.

Figura 4: Distribuição do biotipo por sexo — barras empilhadas proporcionais.

Se as proporções dos segmentos forem parecidas entre as barras, isso sugere distribuições semelhantes entre os sexos. Se houver diferenças visíveis no tamanho relativo dos segmentos, isso pode indicar uma possível associação entre as variáveis, a ser formalmente avaliada por testes como o qui-quadrado ou o teste exato de Fisher.

O perigo dos números que parecem numéricos

Um dos erros mais comuns em pesquisa é tratar variáveis categóricas ordinais como se fossem numéricas — simplesmente porque os níveis foram codificados com números. Se atribuímos 1 = leve, 2 = moderado, 3 = grave a uma escala de dor, o software aceita calcular a “média = 2,3” sem nenhum protesto. Mas essa média não tem significado clínico: ela pressupõe que a distância entre “leve” e “moderado” é a mesma que entre “moderado” e “grave” — o que raramente é verdade (7,8).

Tabela 8: O mesmo dado ordinal codificado de três formas diferentes — note como a ‘média’ muda.
Nível de dor Codificação A Codificação B Codificação C
Leve 1 1 1
Moderado 2 2 3
Grave 3 5 10

Se tivermos 3 pacientes com dor leve, 5 com moderada e 2 com grave, a “média” será 1,9 na codificação A, 2,3 na B e 4,1 na C — três respostas diferentes para os mesmos dados. A média é um artefato da codificação, não uma propriedade dos dados.

AvisoE a escala de Likert?

O exemplo mais debatido desse dilema é a escala de Likert — aquela em que o respondente marca seu grau de concordância de “discordo totalmente” (1) a “concordo totalmente” (5). Pode-se calcular a média de respostas Likert? Existem argumentos apaixonados dos dois lados. Esse debate — que envolve as contribuições de Jamieson, Norman, Carifio e outros — é o tema central do Capítulo 6 (9).

Como reportar dados categóricos

A forma padrão de reportar dados categóricos em artigos científicos é por meio de frequências absolutas e relativas (n e %), organizadas em tabelas:

Tabela 9: Modelo de tabela descritiva para dados categóricos — formato padrão em artigos científicos.
Variável Nível n %
Sexo female 234 58.1
Sexo male 169 41.9
Biotipo small 104 26.6
Biotipo medium 184 47.1
Biotipo large 103 26.3
Cidade Buckingham 200 49.6
Cidade Louisa 203 50.4
ImportanteSempre reporte n e %

Reportar apenas a porcentagem sem o n absoluto dificulta a interpretação — 50% pode significar 5 de 10 ou 500 de 1000. A convenção é apresentar ambos: n (%), como em “feminino: 234 (58,1%)”. Isso permite ao leitor avaliar tanto a proporção quanto a precisão da estimativa.

Nominal vs. ordinal: resumo comparativo

Tabela 10: Comparação entre variáveis nominais e ordinais — as diferenças que importam na prática.
Aspecto Nominal Ordinal
Ordem entre níveis Não existe Existe (hierarquia natural)
Medida de centro Moda Mediana
Frequência acumulada Sem sentido Faz sentido (% acumulado)
Codificação numérica Rótulos arbitrários (0/1) Reflete a ordem, mas distâncias não garantidas
Gráfico Barras (qualquer ordem) Barras (ordem fixa)
Teste de associação Qui-quadrado, Fisher Mann-Whitney, Kruskal-Wallis
Exemplo do estudo Sexo (female, male) Biotipo (small < medium < large)

Resumo do capítulo

Tabela 11: Resumo — dados categóricos em pesquisa em saúde.
Conceito Definição Exemplo do estudo
Variáveis nominais Categorias sem ordem; rótulos intercambiáveis Sexo, tipo sanguíneo, cidade
Variáveis ordinais Categorias com hierarquia; ordem sem distâncias iguais Biotipo, estadiamento de câncer, escala de dor
Variáveis binárias Caso especial com exatamente dois níveis (sim/não, 0/1) Sexo (female/male), óbito (sim/não)
Níveis As categorias possíveis, definidas pelo pesquisador antes da coleta Biotipo: small, medium, large — definidos pelo protocolo
Tabela de frequência Frequência absoluta (n) e relativa (%) por nível Female: 234 (58,1%); Male: 169 (41,9%)
Tabela de contingência Cruzamento de duas variáveis categóricas (linha × coluna) Sexo × biotipo: quantos homens são 'large'?
Gráfico de barras Representação visual adequada para dados categóricos Barras verticais com proporção (%) no eixo y
NotaPróximos passos

Este capítulo apresentou os dados categóricos — nominais, ordinais e suas propriedades. No próximo capítulo, enfrentaremos os casos especiais: variáveis que desafiam a classificação simples, como a escala de Likert, o IMC (contínuo que vira categórico) e outros limites entre o numérico e o categórico.

Referências

1.
Graunt J. Natural and Political Observations Mentioned in a Following Index, and Made upon the Bills of Mortality. London: Tho. Roycroft for John Martin, James Allestry, and Tho. Dicas; 1662.
2.
Stigler SM. The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, MA: Harvard University Press; 1986.
3.
Stigler SM. Statistics on the Table: The History of Statistical Concepts and Methods. Cambridge, MA: Harvard University Press; 1999.
4.
Agresti A. Statistical Methods for the Social Sciences. 5.ª ed. Boston: Pearson; 2018.
5.
Stevens SS. On the Theory of Scales of Measurement. Science. 1946;103(2684):677–80.
6.
Siegel S, Castellan Jr. NJ. Nonparametric Statistics for the Behavioral Sciences. 2.ª ed. New York: McGraw-Hill; 1988.
7.
Velleman PF, Wilkinson L. Nominal, Ordinal, Interval, and Ratio Typologies Are Misleading. The American Statistician. 1993;47(1):65–72.
8.
Hand DJ. Measurement Theory and Practice: The World through Quantification. London: Arnold Publishers; 2004.
9.
Likert R. A Technique for the Measurement of Attitudes. Archives of Psychology. 1932;22(140):5–55.