Classificação dos Tipos de Dados

Numéricos vs. Categóricos

Introdução

Classificar corretamente os dados de uma pesquisa é uma etapa fundamental da análise estatística, é o momento em que o pesquisador decide o que aquele número representa, determinando tudo o que vem depois. É a classificação que diz se faz sentido calcular uma média ou se o correto é contar frequências. É ela que separa o histograma do gráfico de barras, o teste t do qui-quadrado, a correlação de Pearson da de Spearman.

Parece simples e óbvio dizer que a altura medida em metros é uma variável numérica e que o sexo é uma variável categórica. É fácil esquecer que alguém precisou inventar essa classificação. A história da classificação das variáveis e suas reviravoltas vale a pena ser contada.

A história

Em 1946, Stanley Smith Stevens publicou na revista Science um artigo de pouco mais de três páginas que mudaria para sempre a forma como cientistas pensam sobre medição. O título era direto: “On the Theory of Scales of Measurement”. A proposta, audaciosa: toda medição científica pode ser classificada em quatro escalas — nominal, ordinal, intervalar e de razão (1).

O artigo não surgiu do nada. Stevens respondeu a um impasse que durava quase uma década. Em 1932, a British Association for the Advancement of Science criou um comitê com representantes da psicologia e da física para responder a uma pergunta aparentemente simples: sensações psicológicas — como a percepção de intensidade sonora — podem ser “medidas”? Após oito anos de deliberações, psicólogos e físicos não conseguiram chegar a um acordo. Os físicos esperavam que toda medição obedecesse à adição; os psicólogos sabiam que suas escalas não se comportavam assim (1,2).

Stevens resolveu o impasse reformulando a própria definição de medição. Em vez de exigir propriedades aditivas, ele propôs que “medição é a atribuição de numerais a objetos ou eventos segundo regras” (1). Diferentes regras geram diferentes escalas, e cada escala admite diferentes operações estatísticas. A Tabela 1 de seu artigo — reproduzida abaixo — tornou-se uma das mais citadas da história da estatística.

Tabela 1: As quatro escalas de Stevens (1946) — adaptada da Tabela 1 do artigo original.

Escala	Operação empírica básica	Estatísticas permissíveis	Exemplo em saúde
Nominal	Determinação de igualdade	Frequência, moda, correlação de contingência	Tipo sanguíneo (A, B, AB, O)
Ordinal	Determinação de maior ou menor	Mediana, percentis	Estadiamento de câncer (I, II, III, IV)
Intervalar	Determinação de igualdade de intervalos	Média, desvio-padrão, correlação de Pearson	Temperatura corporal em °C
Razão	Determinação de igualdade de razões	Média geométrica, coeficiente de variação	Peso em kg, altura em cm

A taxonomia de Stevens — conhecida pela sigla NOIR — foi rapidamente adotada por livros-texto de estatística nas ciências sociais e da saúde. De Siegel (1956) a Robinson (1960), o esquema oferecia algo irresistível: uma regra simples para escolher o teste estatístico certo a partir do tipo de dado (2,3).

A taxonomia NOIR dominou o ensino de estatística por quase meio século. Mas, ao longo desse período, acumulou críticas de peso. Velleman e Wilkinson, em um artigo provocativo de 1993 no The American Statistician, argumentaram que as tipologias de Stevens são “enganosas” (3). O problema central, segundo eles, é que o tipo de escala não é um atributo fixo dos dados — depende da pergunta que fazemos e da informação adicional que temos (3).

O debate sobre a taxonomia de Stevens dividiu estatísticos em dois campos ao longo de décadas. De um lado, teóricos da medição argumentam que o nível de escala deveria restringir a escolha do teste estatístico (4). Do outro, estatísticos aplicados como Tukey e Lord sempre defenderam que essa prescrição é rígida demais (3). Na prática, o lado aplicado prevaleceu: quase nenhum software estatístico moderno usa a taxonomia NOIR e a divisão operacional que se consolidou ficou mais simples: numérico vs. categórico (3,5).

O mapa completo

A árvore abaixo organiza os tipos de dados que você encontrará na maioria dos conjuntos de dados de pesquisa em saúde:

Figura 1: Árvore de classificação dos tipos de dados em pesquisa em saúde.

A distinção primária é entre numéricos (quantitativos) e categóricos (qualitativos). Dentro de cada ramo, subdivisões adicionais determinam como os dados se comportam — e quais análises são adequadas.

Numéricos (Quantitativos)

Dados numéricos representam quantidades. São valores sobre os quais operações aritméticas fazem sentido (soma, subtração, média, etc).

E no computador?

Quando carregamos dados num software estatístico, ele precisa decidir como armazenar cada valor na memória. Para dados numéricos, a distinção mais importante é entre números inteiros (int, integer) e números com casas decimais (float, double, numeric) — o computador reserva espaços de memória diferentes para cada um. Essa diferença pode parecer um detalhe técnico, mas tem consequências práticas: um número de internações (que só pode ser 0, 1, 2, 3…) é armazenado de forma diferente de um peso corporal (que pode ser 72,3 kg). Veremos como o R e o Python lidam com isso no Capítulo 10.

Numéricos Discretos

Dados discretos assumem valores inteiros e não admitem frações no contexto em que são coletados. Não faz sentido dizer que um determinado paciente teve 2,7 internações ou que uma determinada família tem 1,3 filhos.

Exemplos em saúde: número de internações, número de consultas no último ano, quantidade de medicamentos em uso, número de dentes cariados.

Tabela 2: Exemplos de variáveis numéricas discretas em pesquisa em saúde.

Variável	Valores possíveis	Operação	Descritivas
Número de internações	0, 1, 2, 3, …	Contagem	Mediana, média, DP
Quantidade de medicamentos	0, 1, 2, 3, …	Contagem	Mediana, média, DP
Número de filhos	0, 1, 2, 3, …	Contagem	Mediana, média, DP
Número de consultas/ano	0, 1, 2, 3, …	Contagem	Mediana, média, DP

Numéricos Contínuos

Dados contínuos resultam de medições. Podem assumir qualquer valor dentro de um intervalo, incluindo frações arbitrariamente precisas. A precisão é limitada apenas pelo instrumento de medida, não pela natureza da variável.

Exemplos em saúde: peso (72,301 kg; 72,350 kg), altura (168,5 cm), pressão arterial (118 mmHg), colesterol (203 mg/dL), temperatura corporal (36,7 °C).

No nosso banco de dados, as variáveis contínuas predominam:

Tabela 3: Variáveis numéricas contínuas do estudo — note a amplitude e a precisão decimal.

Variável	Unidade	Amplitude (mín – máx)	Média
idade	anos	19 – 92	46.9
colesterol	mg/dL	78 – 443	207.8
glicose	mg/dL	48 – 385	106.7
hdl	mg/dL	12 – 120	50.4
peso	kg	44.91 – 147.42	80.6
altura	cm	132.08 – 193.04	167.7
sistolica	mmHg	90 – 250	136.9
diastolica	mmHg	48 – 124	83.3

A distinção entre discreto e contínuo pode parecer sutil, mas tem consequências práticas. Variáveis contínuas admitem distribuições de probabilidade contínuas (como a normal); variáveis discretas seguem distribuições discretas (como a Poisson ou a binomial). Essa diferença se reflete na escolha de modelos estatísticos.

Categóricos (Qualitativos)

Dados categóricos representam categorias ou rótulos. Os valores indicam a qual grupo o sujeito pertence, mas não representam medições.

E no computador?

No R, variáveis categóricas são armazenadas como factor — um tipo que permite definir quais são os níveis válidos e se existe uma ordem entre eles (nominal ou ordinal). No Python (pandas), o equivalente é o tipo category. Veremos como usar ambos no Capítulo 10.

categóricos Nominais

Dados nominais classificam sujeitos em categorias sem qualquer relação de ordem. Não existe hierarquia entre os níveis — reorganizá-los em qualquer sequência não altera o significado.

Exemplos em saúde: tipo sanguíneo (A, B, AB, O), sexo (feminino, masculino), cidade de residência, cor dos olhos, estado civil.

Tabela 4: Variáveis categóricas nominais do estudo.

Variável	Nível	n	%
sexo	female	234	58.1
sexo	male	169	41.9
cidade	Buckingham	200	49.6
cidade	Louisa	203	50.4

Um caso particular dos nominais são os binários — variáveis com exatamente dois níveis. A variável sexo no nosso estudo é um exemplo. Variáveis binárias são extremamente comuns em saúde: diagnóstico (presente/ausente), desfecho (óbito/alta), exposição (sim/não). Conceitualmente, são variáveis categóricas — representam grupos, não quantidades (5). Mas a codificação numérica 0/1, tão habitual na prática, abre uma porta interessante: a média de uma variável codificada como 0 e 1 é a proporção de “1” no grupo — uma operação aritmética perfeitamente legítima sobre algo que, em essência, é categórico. Na prática, a classificação depende do que se faz com a variável: quando entra como desfecho em uma regressão logística, é tratada como categórica; quando entra como preditora codificada 0/1 em uma regressão linear, opera como numérica. É mais um exemplo de que a fronteira entre tipos de dados nem sempre é uma linha nítida — tema que retomaremos no capítulo sobre casos especiais.

Categóricos Ordinais

Dados ordinais classificam sujeitos em categorias com uma ordem implícita, mas cujas distâncias entre os níveis não são necessariamente iguais. Sabemos que “grau III” é mais grave que “grau II”, mas não podemos afirmar que a diferença entre I e II é a mesma que entre II e III.

Exemplos em saúde: estadiamento de câncer (I < II < III < IV), classe funcional da insuficiência cardíaca (NYHA I–IV), grau de obesidade, escala de dor (leve < moderada < intensa), classificação ASA de risco cirúrgico.

No nosso estudo, a variável biotipo é ordinal — seus níveis seguem uma ordenação de tamanho corporal:

Tabela 5: Distribuição do biotipo — uma variável categórica ordinal.

Biotipo (ordenado)	n	%
small	104	26.6
medium	184	47.1
large	103	26.3

A distinção entre nominal e ordinal é crucial: para dados ordinais, podemos calcular a mediana (o nível central), mas a média não faz sentido — pois exigiria distâncias iguais entre os níveis.

O perigo da falsa precisão

Tratar uma variável ordinal como numérica — por exemplo, atribuir 1, 2, 3, 4 aos graus de obesidade e calcular a média — é um erro frequente. A média de 2,3 graus de obesidade não tem significado clínico. Esse é um dos pontos que exploraremos em profundidade no Capítulo 6, ao discutir a escala de Likert.

Tabela-resumo

A tabela abaixo sintetiza toda a classificação, com as características que distinguem cada tipo de dado e suas implicações para a análise:

Tabela 6: Resumo da classificação dos tipos de dados em pesquisa em saúde.

Tipo	Definição	Exemplo	Medida de centro	Medida de dispersão	Gráfico	Teste
Numérico discreto	Resultado de contagem; valores inteiros	Nº de internações, nº de filhos	Média ou mediana	DP, amplitude	Histograma, boxplot	t, ANOVA, Wilcoxon
Numérico contínuo	Resultado de medição; qualquer valor em um intervalo	Peso (kg), colesterol (mg/dL), altura (cm)	Média ou mediana	DP, amplitude, IIQ	Histograma, boxplot	t, ANOVA, correlação
Categórico nominal	Categorias sem ordem; rótulos intercambiáveis	Sexo, tipo sanguíneo, cidade	Moda	—	Barras, setores	Qui-quadrado, Fisher
Categórico ordinal	Categorias com hierarquia; ordem, mas sem distâncias iguais	Estadiamento de câncer, biotipo, escala de dor	Mediana	IIQ	Barras (ordenadas)	Mann-Whitney, Kruskal-Wallis

Próximos passos

Capítulo 3 — Como documentar essa classificação em um dicionário de variáveis
Capítulo 4 — Dados numéricos em profundidade (discretos, contínuos, escalas de medida)
Capítulo 5 — Dados categóricos em profundidade (níveis definidos pelo pesquisador, recodificação)
Capítulo 6 — Casos especiais: quando a classificação não é óbvia (Likert, idade, IMC)

Referências

Stevens SS. On the Theory of Scales of Measurement. Science. 1946;103(2684):677–80.

Chrisman NR. Rethinking Levels of Measurement for Cartography. Cartography and Geographic Information Science. 1998;25(4):231–42.

Velleman PF, Wilkinson L. Nominal, Ordinal, Interval, and Ratio Typologies Are Misleading. The American Statistician. 1993;47(1):65–72.

Feuerstahler L. Scale Type Revisited: Some Misconceptions, Misinterpretations, and Recommendations. Psych. 2023;5(2):234–48.

Agresti A. Statistical Methods for the Social Sciences. 5.ª ed. Boston: Pearson; 2018.