Classificação dos Tipos de Dados

Numéricos vs. Categóricos

Introdução

Classificar corretamente os dados de uma pesquisa é uma etapa fundamental da análise estatística, é o momento em que o pesquisador decide o que aquele número representa, determinando tudo o que vem depois. É a classificação que diz se faz sentido calcular uma média ou se o correto é contar frequências. É ela que separa o histograma do gráfico de barras, o teste t do qui-quadrado, a correlação de Pearson da de Spearman.

Parece simples e óbvio dizer que a altura medida em metros é uma variável numérica e que o sexo é uma variável categórica. É fácil esquecer que alguém precisou inventar essa classificação. A história da classificação das variáveis e suas reviravoltas vale a pena ser contada.

NotaA história

Em 1946, Stanley Smith Stevens publicou na revista Science um artigo de pouco mais de três páginas que mudaria para sempre a forma como cientistas pensam sobre medição. O título era direto: “On the Theory of Scales of Measurement”. A proposta, audaciosa: toda medição científica pode ser classificada em quatro escalas — nominal, ordinal, intervalar e de razão (1).

O artigo não surgiu do nada. Stevens respondeu a um impasse que durava quase uma década. Em 1932, a British Association for the Advancement of Science criou um comitê com representantes da psicologia e da física para responder a uma pergunta aparentemente simples: sensações psicológicas — como a percepção de intensidade sonora — podem ser “medidas”? Após oito anos de deliberações, psicólogos e físicos não conseguiram chegar a um acordo. Os físicos esperavam que toda medição obedecesse à adição; os psicólogos sabiam que suas escalas não se comportavam assim (1,2).

Stevens resolveu o impasse reformulando a própria definição de medição. Em vez de exigir propriedades aditivas, ele propôs que “medição é a atribuição de numerais a objetos ou eventos segundo regras” (1). Diferentes regras geram diferentes escalas, e cada escala admite diferentes operações estatísticas. A Tabela 1 de seu artigo — reproduzida abaixo — tornou-se uma das mais citadas da história da estatística.

Tabela 1: As quatro escalas de Stevens (1946) — adaptada da Tabela 1 do artigo original.
Escala Operação empírica básica Estatísticas permissíveis Exemplo em saúde
Nominal Determinação de igualdade Frequência, moda, correlação de contingência Tipo sanguíneo (A, B, AB, O)
Ordinal Determinação de maior ou menor Mediana, percentis Estadiamento de câncer (I, II, III, IV)
Intervalar Determinação de igualdade de intervalos Média, desvio-padrão, correlação de Pearson Temperatura corporal em °C
Razão Determinação de igualdade de razões Média geométrica, coeficiente de variação Peso em kg, altura em cm

A taxonomia de Stevens — conhecida pela sigla NOIR — foi rapidamente adotada por livros-texto de estatística nas ciências sociais e da saúde. De Siegel (1956) a Robinson (1960), o esquema oferecia algo irresistível: uma regra simples para escolher o teste estatístico certo a partir do tipo de dado (2,3).

A taxonomia NOIR dominou o ensino de estatística por quase meio século. Mas, ao longo desse período, acumulou críticas de peso. Velleman e Wilkinson, em um artigo provocativo de 1993 no The American Statistician, argumentaram que as tipologias de Stevens são “enganosas” (3). O problema central, segundo eles, é que o tipo de escala não é um atributo fixo dos dados — depende da pergunta que fazemos e da informação adicional que temos (3).

O debate sobre a taxonomia de Stevens dividiu estatísticos em dois campos ao longo de décadas. De um lado, teóricos da medição argumentam que o nível de escala deveria restringir a escolha do teste estatístico (4). Do outro, estatísticos aplicados como Tukey e Lord sempre defenderam que essa prescrição é rígida demais (3). Na prática, o lado aplicado prevaleceu: quase nenhum software estatístico moderno usa a taxonomia NOIR e a divisão operacional que se consolidou ficou mais simples: numérico vs. categórico (3,5).

O mapa completo

A árvore abaixo organiza os tipos de dados que você encontrará na maioria dos conjuntos de dados de pesquisa em saúde:

Figura 1: Árvore de classificação dos tipos de dados em pesquisa em saúde.

A distinção primária é entre numéricos (quantitativos) e categóricos (qualitativos). Dentro de cada ramo, subdivisões adicionais determinam como os dados se comportam — e quais análises são adequadas.

Numéricos (Quantitativos)

Dados numéricos representam quantidades. São valores sobre os quais operações aritméticas fazem sentido (soma, subtração, média, etc).

NotaE no computador?

Quando carregamos dados num software estatístico, ele precisa decidir como armazenar cada valor na memória. Para dados numéricos, a distinção mais importante é entre números inteiros (int, integer) e números com casas decimais (float, double, numeric) — o computador reserva espaços de memória diferentes para cada um. Essa diferença pode parecer um detalhe técnico, mas tem consequências práticas: um número de internações (que só pode ser 0, 1, 2, 3…) é armazenado de forma diferente de um peso corporal (que pode ser 72,3 kg). Veremos como o R e o Python lidam com isso no Capítulo 10.

Numéricos Discretos

Dados discretos assumem valores inteiros e não admitem frações no contexto em que são coletados. Não faz sentido dizer que um determinado paciente teve 2,7 internações ou que uma determinada família tem 1,3 filhos.

Exemplos em saúde: número de internações, número de consultas no último ano, quantidade de medicamentos em uso, número de dentes cariados.

Tabela 2: Exemplos de variáveis numéricas discretas em pesquisa em saúde.
Variável Valores possíveis Operação Descritivas
Número de internações 0, 1, 2, 3, … Contagem Mediana, média, DP
Quantidade de medicamentos 0, 1, 2, 3, … Contagem Mediana, média, DP
Número de filhos 0, 1, 2, 3, … Contagem Mediana, média, DP
Número de consultas/ano 0, 1, 2, 3, … Contagem Mediana, média, DP

Numéricos Contínuos

Dados contínuos resultam de medições. Podem assumir qualquer valor dentro de um intervalo, incluindo frações arbitrariamente precisas. A precisão é limitada apenas pelo instrumento de medida, não pela natureza da variável.

Exemplos em saúde: peso (72,301 kg; 72,350 kg), altura (168,5 cm), pressão arterial (118 mmHg), colesterol (203 mg/dL), temperatura corporal (36,7 °C).

No nosso banco de dados, as variáveis contínuas predominam:

Tabela 3: Variáveis numéricas contínuas do estudo — note a amplitude e a precisão decimal.
Variável Unidade Amplitude (mín – máx) Média
idade anos 19 – 92 46.9
colesterol mg/dL 78 – 443 207.8
glicose mg/dL 48 – 385 106.7
hdl mg/dL 12 – 120 50.4
peso kg 44.91 – 147.42 80.6
altura cm 132.08 – 193.04 167.7
sistolica mmHg 90 – 250 136.9
diastolica mmHg 48 – 124 83.3

A distinção entre discreto e contínuo pode parecer sutil, mas tem consequências práticas. Variáveis contínuas admitem distribuições de probabilidade contínuas (como a normal); variáveis discretas seguem distribuições discretas (como a Poisson ou a binomial). Essa diferença se reflete na escolha de modelos estatísticos.

Categóricos (Qualitativos)

Dados categóricos representam categorias ou rótulos. Os valores indicam a qual grupo o sujeito pertence, mas não representam medições.

NotaE no computador?

No R, variáveis categóricas são armazenadas como factor — um tipo que permite definir quais são os níveis válidos e se existe uma ordem entre eles (nominal ou ordinal). No Python (pandas), o equivalente é o tipo category. Veremos como usar ambos no Capítulo 10.

categóricos Nominais

Dados nominais classificam sujeitos em categorias sem qualquer relação de ordem. Não existe hierarquia entre os níveis — reorganizá-los em qualquer sequência não altera o significado.

Exemplos em saúde: tipo sanguíneo (A, B, AB, O), sexo (feminino, masculino), cidade de residência, cor dos olhos, estado civil.

Tabela 4: Variáveis categóricas nominais do estudo.
Variável Nível n %
sexo female 234 58.1
sexo male 169 41.9
cidade Buckingham 200 49.6
cidade Louisa 203 50.4

Um caso particular dos nominais são os binários — variáveis com exatamente dois níveis. A variável sexo no nosso estudo é um exemplo. Variáveis binárias são extremamente comuns em saúde: diagnóstico (presente/ausente), desfecho (óbito/alta), exposição (sim/não). Conceitualmente, são variáveis categóricas — representam grupos, não quantidades (5). Mas a codificação numérica 0/1, tão habitual na prática, abre uma porta interessante: a média de uma variável codificada como 0 e 1 é a proporção de “1” no grupo — uma operação aritmética perfeitamente legítima sobre algo que, em essência, é categórico. Na prática, a classificação depende do que se faz com a variável: quando entra como desfecho em uma regressão logística, é tratada como categórica; quando entra como preditora codificada 0/1 em uma regressão linear, opera como numérica. É mais um exemplo de que a fronteira entre tipos de dados nem sempre é uma linha nítida — tema que retomaremos no capítulo sobre casos especiais.

Categóricos Ordinais

Dados ordinais classificam sujeitos em categorias com uma ordem implícita, mas cujas distâncias entre os níveis não são necessariamente iguais. Sabemos que “grau III” é mais grave que “grau II”, mas não podemos afirmar que a diferença entre I e II é a mesma que entre II e III.

Exemplos em saúde: estadiamento de câncer (I < II < III < IV), classe funcional da insuficiência cardíaca (NYHA I–IV), grau de obesidade, escala de dor (leve < moderada < intensa), classificação ASA de risco cirúrgico.

No nosso estudo, a variável biotipo é ordinal — seus níveis seguem uma ordenação de tamanho corporal:

Tabela 5: Distribuição do biotipo — uma variável categórica ordinal.
Biotipo (ordenado) n %
small 104 26.6
medium 184 47.1
large 103 26.3

A distinção entre nominal e ordinal é crucial: para dados ordinais, podemos calcular a mediana (o nível central), mas a média não faz sentido — pois exigiria distâncias iguais entre os níveis.

AvisoO perigo da falsa precisão

Tratar uma variável ordinal como numérica — por exemplo, atribuir 1, 2, 3, 4 aos graus de obesidade e calcular a média — é um erro frequente. A média de 2,3 graus de obesidade não tem significado clínico. Esse é um dos pontos que exploraremos em profundidade no Capítulo 6, ao discutir a escala de Likert.

Tabela-resumo

A tabela abaixo sintetiza toda a classificação, com as características que distinguem cada tipo de dado e suas implicações para a análise:

Tabela 6: Resumo da classificação dos tipos de dados em pesquisa em saúde.
Tipo Definição Exemplo Medida de centro Medida de dispersão Gráfico Teste
Numérico discreto Resultado de contagem; valores inteiros Nº de internações, nº de filhos Média ou mediana DP, amplitude Histograma, boxplot t, ANOVA, Wilcoxon
Numérico contínuo Resultado de medição; qualquer valor em um intervalo Peso (kg), colesterol (mg/dL), altura (cm) Média ou mediana DP, amplitude, IIQ Histograma, boxplot t, ANOVA, correlação
Categórico nominal Categorias sem ordem; rótulos intercambiáveis Sexo, tipo sanguíneo, cidade Moda Barras, setores Qui-quadrado, Fisher
Categórico ordinal Categorias com hierarquia; ordem, mas sem distâncias iguais Estadiamento de câncer, biotipo, escala de dor Mediana IIQ Barras (ordenadas) Mann-Whitney, Kruskal-Wallis
NotaPróximos passos
  • Capítulo 3 — Como documentar essa classificação em um dicionário de variáveis
  • Capítulo 4 — Dados numéricos em profundidade (discretos, contínuos, escalas de medida)
  • Capítulo 5 — Dados categóricos em profundidade (níveis definidos pelo pesquisador, recodificação)
  • Capítulo 6 — Casos especiais: quando a classificação não é óbvia (Likert, idade, IMC)

Referências

1.
Stevens SS. On the Theory of Scales of Measurement. Science. 1946;103(2684):677–80.
2.
Chrisman NR. Rethinking Levels of Measurement for Cartography. Cartography and Geographic Information Science. 1998;25(4):231–42.
3.
Velleman PF, Wilkinson L. Nominal, Ordinal, Interval, and Ratio Typologies Are Misleading. The American Statistician. 1993;47(1):65–72.
4.
5.
Agresti A. Statistical Methods for the Social Sciences. 5.ª ed. Boston: Pearson; 2018.