| Escala | Operação empírica básica | Estatísticas permissíveis | Exemplo em saúde |
|---|---|---|---|
| Nominal | Determinação de igualdade | Frequência, moda, correlação de contingência | Tipo sanguíneo (A, B, AB, O) |
| Ordinal | Determinação de maior ou menor | Mediana, percentis | Estadiamento de câncer (I, II, III, IV) |
| Intervalar | Determinação de igualdade de intervalos | Média, desvio-padrão, correlação de Pearson | Temperatura corporal em °C |
| Razão | Determinação de igualdade de razões | Média geométrica, coeficiente de variação | Peso em kg, altura em cm |
Classificação dos Tipos de Dados
Numéricos vs. Categóricos
Introdução
Classificar corretamente os dados de uma pesquisa é uma etapa fundamental da análise estatística, é o momento em que o pesquisador decide o que aquele número representa, determinando tudo o que vem depois. É a classificação que diz se faz sentido calcular uma média ou se o correto é contar frequências. É ela que separa o histograma do gráfico de barras, o teste t do qui-quadrado, a correlação de Pearson da de Spearman.
Parece simples e óbvio dizer que a altura medida em metros é uma variável numérica e que o sexo é uma variável categórica. É fácil esquecer que alguém precisou inventar essa classificação. A história da classificação das variáveis e suas reviravoltas vale a pena ser contada.
Em 1946, Stanley Smith Stevens publicou na revista Science um artigo de pouco mais de três páginas que mudaria para sempre a forma como cientistas pensam sobre medição. O título era direto: “On the Theory of Scales of Measurement”. A proposta, audaciosa: toda medição científica pode ser classificada em quatro escalas — nominal, ordinal, intervalar e de razão (1).
O artigo não surgiu do nada. Stevens respondeu a um impasse que durava quase uma década. Em 1932, a British Association for the Advancement of Science criou um comitê com representantes da psicologia e da física para responder a uma pergunta aparentemente simples: sensações psicológicas — como a percepção de intensidade sonora — podem ser “medidas”? Após oito anos de deliberações, psicólogos e físicos não conseguiram chegar a um acordo. Os físicos esperavam que toda medição obedecesse à adição; os psicólogos sabiam que suas escalas não se comportavam assim (1,2).
Stevens resolveu o impasse reformulando a própria definição de medição. Em vez de exigir propriedades aditivas, ele propôs que “medição é a atribuição de numerais a objetos ou eventos segundo regras” (1). Diferentes regras geram diferentes escalas, e cada escala admite diferentes operações estatísticas. A Tabela 1 de seu artigo — reproduzida abaixo — tornou-se uma das mais citadas da história da estatística.
A taxonomia de Stevens — conhecida pela sigla NOIR — foi rapidamente adotada por livros-texto de estatística nas ciências sociais e da saúde. De Siegel (1956) a Robinson (1960), o esquema oferecia algo irresistível: uma regra simples para escolher o teste estatístico certo a partir do tipo de dado (2,3).
A taxonomia NOIR dominou o ensino de estatística por quase meio século. Mas, ao longo desse período, acumulou críticas de peso. Velleman e Wilkinson, em um artigo provocativo de 1993 no The American Statistician, argumentaram que as tipologias de Stevens são “enganosas” (3). O problema central, segundo eles, é que o tipo de escala não é um atributo fixo dos dados — depende da pergunta que fazemos e da informação adicional que temos (3).
O debate sobre a taxonomia de Stevens dividiu estatísticos em dois campos ao longo de décadas. De um lado, teóricos da medição argumentam que o nível de escala deveria restringir a escolha do teste estatístico (4). Do outro, estatísticos aplicados como Tukey e Lord sempre defenderam que essa prescrição é rígida demais (3). Na prática, o lado aplicado prevaleceu: quase nenhum software estatístico moderno usa a taxonomia NOIR e a divisão operacional que se consolidou ficou mais simples: numérico vs. categórico (3,5).
O mapa completo
A árvore abaixo organiza os tipos de dados que você encontrará na maioria dos conjuntos de dados de pesquisa em saúde:
A distinção primária é entre numéricos (quantitativos) e categóricos (qualitativos). Dentro de cada ramo, subdivisões adicionais determinam como os dados se comportam — e quais análises são adequadas.
Numéricos (Quantitativos)
Dados numéricos representam quantidades. São valores sobre os quais operações aritméticas fazem sentido (soma, subtração, média, etc).
Quando carregamos dados num software estatístico, ele precisa decidir como armazenar cada valor na memória. Para dados numéricos, a distinção mais importante é entre números inteiros (int, integer) e números com casas decimais (float, double, numeric) — o computador reserva espaços de memória diferentes para cada um. Essa diferença pode parecer um detalhe técnico, mas tem consequências práticas: um número de internações (que só pode ser 0, 1, 2, 3…) é armazenado de forma diferente de um peso corporal (que pode ser 72,3 kg). Veremos como o R e o Python lidam com isso no Capítulo 10.
Numéricos Discretos
Dados discretos assumem valores inteiros e não admitem frações no contexto em que são coletados. Não faz sentido dizer que um determinado paciente teve 2,7 internações ou que uma determinada família tem 1,3 filhos.
Exemplos em saúde: número de internações, número de consultas no último ano, quantidade de medicamentos em uso, número de dentes cariados.
| Variável | Valores possíveis | Operação | Descritivas |
|---|---|---|---|
| Número de internações | 0, 1, 2, 3, … | Contagem | Mediana, média, DP |
| Quantidade de medicamentos | 0, 1, 2, 3, … | Contagem | Mediana, média, DP |
| Número de filhos | 0, 1, 2, 3, … | Contagem | Mediana, média, DP |
| Número de consultas/ano | 0, 1, 2, 3, … | Contagem | Mediana, média, DP |
Numéricos Contínuos
Dados contínuos resultam de medições. Podem assumir qualquer valor dentro de um intervalo, incluindo frações arbitrariamente precisas. A precisão é limitada apenas pelo instrumento de medida, não pela natureza da variável.
Exemplos em saúde: peso (72,301 kg; 72,350 kg), altura (168,5 cm), pressão arterial (118 mmHg), colesterol (203 mg/dL), temperatura corporal (36,7 °C).
No nosso banco de dados, as variáveis contínuas predominam:
| Variável | Unidade | Amplitude (mín – máx) | Média |
|---|---|---|---|
| idade | anos | 19 – 92 | 46.9 |
| colesterol | mg/dL | 78 – 443 | 207.8 |
| glicose | mg/dL | 48 – 385 | 106.7 |
| hdl | mg/dL | 12 – 120 | 50.4 |
| peso | kg | 44.91 – 147.42 | 80.6 |
| altura | cm | 132.08 – 193.04 | 167.7 |
| sistolica | mmHg | 90 – 250 | 136.9 |
| diastolica | mmHg | 48 – 124 | 83.3 |
A distinção entre discreto e contínuo pode parecer sutil, mas tem consequências práticas. Variáveis contínuas admitem distribuições de probabilidade contínuas (como a normal); variáveis discretas seguem distribuições discretas (como a Poisson ou a binomial). Essa diferença se reflete na escolha de modelos estatísticos.
Categóricos (Qualitativos)
Dados categóricos representam categorias ou rótulos. Os valores indicam a qual grupo o sujeito pertence, mas não representam medições.
No R, variáveis categóricas são armazenadas como factor — um tipo que permite definir quais são os níveis válidos e se existe uma ordem entre eles (nominal ou ordinal). No Python (pandas), o equivalente é o tipo category. Veremos como usar ambos no Capítulo 10.
categóricos Nominais
Dados nominais classificam sujeitos em categorias sem qualquer relação de ordem. Não existe hierarquia entre os níveis — reorganizá-los em qualquer sequência não altera o significado.
Exemplos em saúde: tipo sanguíneo (A, B, AB, O), sexo (feminino, masculino), cidade de residência, cor dos olhos, estado civil.
| Variável | Nível | n | % |
|---|---|---|---|
| sexo | female | 234 | 58.1 |
| sexo | male | 169 | 41.9 |
| cidade | Buckingham | 200 | 49.6 |
| cidade | Louisa | 203 | 50.4 |
Um caso particular dos nominais são os binários — variáveis com exatamente dois níveis. A variável sexo no nosso estudo é um exemplo. Variáveis binárias são extremamente comuns em saúde: diagnóstico (presente/ausente), desfecho (óbito/alta), exposição (sim/não). Conceitualmente, são variáveis categóricas — representam grupos, não quantidades (5). Mas a codificação numérica 0/1, tão habitual na prática, abre uma porta interessante: a média de uma variável codificada como 0 e 1 é a proporção de “1” no grupo — uma operação aritmética perfeitamente legítima sobre algo que, em essência, é categórico. Na prática, a classificação depende do que se faz com a variável: quando entra como desfecho em uma regressão logística, é tratada como categórica; quando entra como preditora codificada 0/1 em uma regressão linear, opera como numérica. É mais um exemplo de que a fronteira entre tipos de dados nem sempre é uma linha nítida — tema que retomaremos no capítulo sobre casos especiais.
Categóricos Ordinais
Dados ordinais classificam sujeitos em categorias com uma ordem implícita, mas cujas distâncias entre os níveis não são necessariamente iguais. Sabemos que “grau III” é mais grave que “grau II”, mas não podemos afirmar que a diferença entre I e II é a mesma que entre II e III.
Exemplos em saúde: estadiamento de câncer (I < II < III < IV), classe funcional da insuficiência cardíaca (NYHA I–IV), grau de obesidade, escala de dor (leve < moderada < intensa), classificação ASA de risco cirúrgico.
No nosso estudo, a variável biotipo é ordinal — seus níveis seguem uma ordenação de tamanho corporal:
| Biotipo (ordenado) | n | % |
|---|---|---|
| small | 104 | 26.6 |
| medium | 184 | 47.1 |
| large | 103 | 26.3 |
A distinção entre nominal e ordinal é crucial: para dados ordinais, podemos calcular a mediana (o nível central), mas a média não faz sentido — pois exigiria distâncias iguais entre os níveis.
Tratar uma variável ordinal como numérica — por exemplo, atribuir 1, 2, 3, 4 aos graus de obesidade e calcular a média — é um erro frequente. A média de 2,3 graus de obesidade não tem significado clínico. Esse é um dos pontos que exploraremos em profundidade no Capítulo 6, ao discutir a escala de Likert.
Tabela-resumo
A tabela abaixo sintetiza toda a classificação, com as características que distinguem cada tipo de dado e suas implicações para a análise:
| Tipo | Definição | Exemplo | Medida de centro | Medida de dispersão | Gráfico | Teste |
|---|---|---|---|---|---|---|
| Numérico discreto | Resultado de contagem; valores inteiros | Nº de internações, nº de filhos | Média ou mediana | DP, amplitude | Histograma, boxplot | t, ANOVA, Wilcoxon |
| Numérico contínuo | Resultado de medição; qualquer valor em um intervalo | Peso (kg), colesterol (mg/dL), altura (cm) | Média ou mediana | DP, amplitude, IIQ | Histograma, boxplot | t, ANOVA, correlação |
| Categórico nominal | Categorias sem ordem; rótulos intercambiáveis | Sexo, tipo sanguíneo, cidade | Moda | — | Barras, setores | Qui-quadrado, Fisher |
| Categórico ordinal | Categorias com hierarquia; ordem, mas sem distâncias iguais | Estadiamento de câncer, biotipo, escala de dor | Mediana | IIQ | Barras (ordenadas) | Mann-Whitney, Kruskal-Wallis |
- Capítulo 3 — Como documentar essa classificação em um dicionário de variáveis
- Capítulo 4 — Dados numéricos em profundidade (discretos, contínuos, escalas de medida)
- Capítulo 5 — Dados categóricos em profundidade (níveis definidos pelo pesquisador, recodificação)
- Capítulo 6 — Casos especiais: quando a classificação não é óbvia (Likert, idade, IMC)