Dados Numéricos

Discretos, contínuos e tudo o que podemos medir

A história

Em 1835, o astrônomo e matemático belga Adolphe Quetelet publicou Sur l’Homme et le Développement de ses Facultés — um tratado ambicioso que propunha aplicar à sociedade humana os mesmos métodos que a astronomia usava para medir estrelas. Quetelet coletou milhares de medidas de altura, peso e perímetro torácico de soldados e civis, e descobriu algo que o fascinava: quando agrupadas, essas medições formavam uma curva em sino — a distribuição normal — com notável regularidade. Ele chamou o centro dessa curva de l’homme moyen: o “homem médio” (1,2).

A ideia era revolucionária. Até então, variações individuais eram vistas como erros de observação — ruído a ser eliminado. Quetelet inverteu a lógica: a variação entre indivíduos era real e mensurável, e a média era uma descrição legítima do grupo. Nasciam ali dois conceitos que até hoje são a base de qualquer análise de dados numéricos: a tendência central e a dispersão.

Mais de um século depois, em 1977, John Tukey publicou Exploratory Data Analysis, um livro que mudaria a forma como estatísticos olham para números antes de testá-los. A premissa de Tukey era direta: “É importante entender o que você pode fazer antes de aprender a medir quão bem você parece ter feito” (3). Em vez de começar com hipóteses e testes formais, Tukey propunha que o analista primeiro explorasse seus dados — usando gráficos simples, resumos numéricos e ferramentas visuais como o diagrama de ramo-e-folhas e o boxplot. A exploração revelaria padrões, anomalias e surpresas que testes confirmatórios jamais detectariam sozinhos.

A lição conjunta de Quetelet e Tukey é o tema deste capítulo: dados numéricos carregam informação rica — média, dispersão, forma, outliers — mas essa riqueza só se revela quando sabemos o que procurar e como descrever.

DicaA lição de Tukey

Antes de testar, explore. Antes de modelar, descreva. A análise exploratória não é um passo opcional — é o primeiro passo.

O que são dados numéricos?

Dados numéricos (ou quantitativos) representam quantidades mensuráveis. São valores sobre os quais operações aritméticas — soma, subtração, média, desvio-padrão — produzem resultados com significado. No R, são armazenados como integer (inteiros) ou numeric/double (decimais).

A definição parece simples, mas carrega uma implicação profunda: se um valor é numérico, a distância entre dois valores tem significado. A diferença entre 120 e 140 mmHg de pressão sistólica (20 mmHg) é a mesma que entre 140 e 160 mmHg. Isso não ocorre com dados categóricos ordinais — a distância entre “leve” e “moderado” não é necessariamente igual à distância entre “moderado” e “grave”.

No nosso banco de dados, a maioria das variáveis é numérica:

Tabela 1: Variáveis numéricas do estudo — cada uma com unidade e tipo de medição definidos.
Variável Unidade Tipo Instrumento / origem
idade anos Contínua* Registro civil
colesterol mg/dL Contínua Dosagem laboratorial
glicose mg/dL Contínua Dosagem laboratorial
hdl mg/dL Contínua Dosagem laboratorial
ratio adimensional Contínua Calculado (colesterol/hdl)
glicohemoglobina % (HbA1c) Contínua Dosagem laboratorial
peso kg Contínua Balança
altura cm Contínua Estadiômetro
sistolica mmHg Contínua Esfigmomanômetro
diastolica mmHg Contínua Esfigmomanômetro
cintura cm Contínua Fita métrica
quadril cm Contínua Fita métrica

* A variável idade merece uma discussão à parte — veja o callout mais adiante.

Discretos vs. contínuos

A distinção mais fundamental entre dados numéricos é entre discretos e contínuos. Embora o Capítulo 2 já tenha introduzido essa classificação, aqui a aprofundamos com exemplos, critérios e casos-limite.

Variáveis numéricas discretas

Dados discretos assumem valores inteiros e finitos (ou infinitos enumeráveis), sem frações significativas no contexto da medição. Um teste prático ajuda a identificá-los: se, para qualquer par de valores observados, o valor intermediário não faz sentido no contexto da variável, ela é discreta (4). Entre 5 e 8 lesões, “6,5 lesões” não existe. Não faz sentido dizer que um paciente teve 2,7 internações ou que uma família tem 1,3 filhos.

Tabela 2: Exemplos de variáveis numéricas discretas em pesquisa em saúde.
Variável Valores possíveis Operação Distribuição típica
Número de internações 0, 1, 2, 3, … Contagem Poisson
Número de filhos 0, 1, 2, 3, … Contagem Poisson
Quantidade de medicamentos 0, 1, 2, 3, … Contagem Poisson
Número de consultas/ano 0, 1, 2, 3, … Contagem Poisson
Número de lesões cutâneas 0, 1, 2, 3, … Contagem Poisson / Binomial negativa
Número de dentes cariados 0, 1, 2, 3, … Contagem Binomial

Variáveis numéricas contínuas

Dados contínuos podem assumir qualquer valor dentro de um intervalo — incluindo frações arbitrariamente precisas. A precisão é limitada apenas pelo instrumento de medida, não pela natureza da variável.

O mesmo teste prático funciona ao inverso: se, para qualquer par de valores, o valor intermediário faz sentido, a variável é contínua (4). Entre um paciente com 72,0 kg e outro com 74,0 kg, um paciente com 73,0 kg é perfeitamente plausível — assim como 72,5 ou 73,217 kg.

Tabela 3: Variáveis numéricas contínuas do estudo — amplitude e estatísticas descritivas.
Variável Unidade n válidos Mín Máx Média DP
colesterol mg/dL 402 78.00 443.00 207.8 44.4
glicose mg/dL 403 48.00 385.00 106.7 53.1
hdl mg/dL 402 12.00 120.00 50.4 17.3
glicohemoglobina % (HbA1c) 390 2.68 16.11 5.6 2.2
peso kg 402 44.91 147.42 80.6 18.3
altura cm 398 132.08 193.04 167.7 10.0
sistolica mmHg 398 90.00 250.00 136.9 22.7
diastolica mmHg 398 48.00 124.00 83.3 13.6
AvisoIdade: discreta ou contínua?

No nosso banco de dados, a variável idade aparece registrada como números inteiros (19, 23, 45, …). Isso torna a idade uma variável discreta? A resposta exige cuidado.

O tempo — e, portanto, o envelhecimento — é um fenômeno intrinsecamente contínuo. O fato de a idade ser comumente expressa em anos inteiros não a transforma em variável discreta: o que define a natureza da escala não são os valores efetivamente registrados, mas o potencial da escala de acomodar valores decimais (5). A prova é que a idade de crianças é rotineiramente expressa em meses e a de neonatos em dias — precisamente porque a precisão em anos inteiros seria insuficiente.

Um teste simples ajuda a esclarecer: se, para qualquer par de valores observados, o valor intermediário é significativo, a variável é contínua (4). Entre um paciente de 40 anos e outro de 41, um paciente de 40,5 anos faz perfeito sentido — diferentemente de “6,5 lesões”, que não faz.

Na prática da pesquisa, a maioria dos artigos sequer especifica como a idade foi calculada — se na admissão, na inclusão no estudo ou no momento do desfecho — e se foram considerados meses ou apenas anos inteiros (6).

O risco maior, porém, está em categorizar a idade em faixas etárias quando isso não é necessário. Altman e Royston demonstram que dicotomizar uma variável contínua pela mediana reduz o poder estatístico tanto quanto descartar um terço dos dados (7). A recomendação é clara: sempre que possível, mantenha a idade como variável contínua na análise.

Em resumo: a idade é uma variável contínua por natureza, frequentemente registrada de forma discreta (em anos inteiros) e por vezes indevidamente categorizada em faixas etárias. Reconhecer essa distinção é fundamental para escolher a análise estatística correta.

Escalas intervalar e de razão: uma distinção que ficou na teoria

Nos capítulos anteriores, classificamos variáveis em dois grandes grupos: numéricas e categóricas. Peso é numérico. Sexo é categórico. Pressão arterial é numérica. Tipo sanguíneo é categórico. Essa divisão é intuitiva, funciona bem na prática e guia praticamente todas as decisões que tomamos ao escolher um teste estatístico ou um tipo de gráfico.

Mas quem já cursou uma disciplina de bioestatística — ou folheou um livro-texto antes de chegar a este — provavelmente aprendeu uma classificação mais detalhada. Não dois tipos, mas quatro: nominal, ordinal, intervalar e de razão. A sigla NOIR (Nominal, Ordinal, Interval, Ratio), proposta por Stevens em 1946, aparece em praticamente todo curso introdutório e foi apresentada no Capítulo 2 deste livro (8). E se nominal e ordinal correspondem ao que chamamos de categórico, o ramo numérico deveria, pela lógica de Stevens, ser subdividido em mais dois: intervalar e de razão.

A diferença entre escalas intervalar e de razão se resume a uma pergunta: o zero da escala significa ausência da grandeza?

Na escala intervalar, o zero é arbitrário — não representa ausência da grandeza. O exemplo clássico é a temperatura em graus Celsius: 0 °C não significa “ausência de temperatura”, mas sim o ponto de congelamento da água. Consequência: podemos calcular diferenças (a diferença entre 20 °C e 30 °C são 10 °C), mas não razões (30 °C não é “o dobro” de 15 °C em termos de calor).

Na escala de razão, o zero é absoluto — representa ausência da grandeza. Peso, altura, concentração de colesterol e pressão arterial são exemplos. Um paciente com 80 kg pesa exatamente o dobro de um com 40 kg. As quatro operações aritméticas e todas as estatísticas descritivas são válidas.

Tabela 4: Comparação entre escalas intervalar e de razão — a diferença está no zero.
Aspecto Escala intervalar Escala de razão
Zero Arbitrário (convenção) Absoluto (ausência da grandeza)
Diferenças Significativas (10 °C de diferença) Significativas (10 kg de diferença)
Razões Sem sentido (30 °C ≠ 2 × 15 °C) Significativas (80 kg = 2 × 40 kg)
Exemplo clínico Temperatura em °C, ano calendário Peso (kg), colesterol (mg/dL), altura (cm)
Estatísticas Média, DP, correlação de Pearson Todas + média geométrica, CV

Por que essa distinção ficou na teoria

A distinção é conceitualmente correta. Mas na prática da análise de dados — especialmente em saúde — ela perdeu relevância por quatro razões convergentes.

O software não a reconhece. As duas linguagens dominantes na análise de dados em saúde — R e Python — organizam suas variáveis em tipos que não incluem a distinção intervalar/razão. No R, uma variável numérica é numeric ou integer; uma categórica é factor. No Python (pandas), temos float64 e category. Em nenhum dos dois ambientes existe um tipo interval separado de ratio. Quando a ferramenta que o mundo inteiro usa para analisar dados não reconhece uma distinção, é um sinal forte de que essa distinção não muda as decisões práticas de análise.

As operações estatísticas são as mesmas. Média, desvio-padrão, teste t, ANOVA, correlação de Pearson, regressão linear — todas essas ferramentas pressupõem apenas que as distâncias entre valores são significativas, o que é verdade tanto para escalas intervalares quanto para escalas de razão. A única operação que a escala de razão permite e a intervalar não — a razão entre valores (ex: “o dobro”) — raramente aparece como parte de um teste estatístico formal.

Variáveis intervalares são raras em saúde. Na pesquisa clínica e epidemiológica, a grande maioria das variáveis numéricas é de razão: peso, altura, pressão, colesterol, glicose, frequência cardíaca, contagens celulares. Os exemplos clássicos de escala intervalar — temperatura em °C, ano calendário, escore de QI — aparecem com pouca frequência em bancos de dados clínicos. Uma distinção que raramente se aplica é uma distinção que raramente importa.

A literatura aponta na mesma direção. Velleman e Wilkinson, em uma crítica influente à taxonomia de Stevens, concluem que a distinção operacional relevante na prática é entre “categorical factors” (nominais e ordinais) e “continuous covariates” (intervalares e de razão) — exatamente a divisão que adotamos neste livro. A seção 7 de seu artigo é intitulada, significativamente, “Good data analysis does not assume data types”, e a seção 8 conclui que “the scale type of data depends on the questions we intend to ask” (9). Agresti, em seu livro-texto de referência, organiza a classificação principal em “quantitative” e “categorical”, apresentando a subdivisão intervalar/razão como nota conceitual, não como divisor de análise (10). Norman demonstra que testes paramétricos produzem resultados válidos independentemente de o dado ser intervalar ou de razão — a robustez a violações de pressupostos de escala é documentada há décadas (11).

O que adotamos neste livro

Diante dessas evidências, este livro trabalha com a classificação em dois grandes ramos: numérico (discreto ou contínuo) e categórico (nominal ou ordinal). Essa é a divisão que determina as decisões reais do dia a dia: se usamos média ou proporção, histograma ou barras, teste t ou qui-quadrado.

DicaA distinção intervalar/razão importa quando?

Em alguns contextos específicos, a diferença entre escalas intervalar e de razão pode ser relevante — por exemplo, na interpretação do coeficiente de variação (que pressupõe zero absoluto) ou no uso da média geométrica. Mas, para a grande maioria das análises em saúde, a pergunta que realmente muda a abordagem é: o dado é numérico ou categórico?

Descrevendo dados numéricos

Descrever adequadamente uma variável numérica exige responder a três perguntas: onde estão os dados? (tendência central), quão espalhados estão? (dispersão) e qual a forma da distribuição? (simetria, outliers).

Medidas de tendência central

As três medidas clássicas — média, mediana e moda — respondem de formas diferentes à pergunta “qual é o valor típico?”.

Tabela 5: Medidas de tendência central para variáveis selecionadas do estudo.
Variável Média Mediana Diferença Interpretação
colesterol 207.8 204.0 3.8 Assimetria à direita (cauda longa para valores altos)
glicose 106.7 89.0 17.7 Assimetria à direita (cauda longa para valores altos)
peso 80.6 78.2 2.4 Assimetria à direita (cauda longa para valores altos)
idade 46.9 45.0 1.9 Distribuição aproximadamente simétrica
sistolica 136.9 136.0 0.9 Distribuição aproximadamente simétrica

Quando a média e a mediana são próximas, a distribuição tende a ser simétrica. Quando divergem, há assimetria — e a mediana é geralmente a medida mais representativa do “valor típico”, pois é menos influenciada por valores extremos (12).

Medidas de dispersão

A tendência central sozinha não basta. Dois grupos podem ter a mesma média e distribuições completamente diferentes. As medidas de dispersão capturam essa variabilidade.

Tabela 6: Medidas de dispersão para variáveis selecionadas do estudo.
Variável Desvio-padrão Intervalo interquartil Amplitude
colesterol 44.4 51.0 365.0
glicose 53.1 25.0 337.0
peso 18.3 22.2 102.5
idade 16.3 26.0 73.0
sistolica 22.7 25.5 160.0

O desvio-padrão (DP) é a medida mais usada: quanto maior, mais os dados se espalham ao redor da média. O intervalo interquartil (IIQ) — a diferença entre o percentil 75 e o percentil 25 — é robusto a outliers e complementa a mediana da mesma forma que o DP complementa a média. A amplitude (máximo − mínimo) é simples mas muito sensível a valores extremos.

A forma da distribuição

A distribuição de uma variável numérica revela padrões que nenhuma estatística isolada consegue capturar: simetria, caudas longas, picos múltiplos e valores atípicos. É aqui que a lição de Tukey se materializa — a exploração visual é insubstituível (3).

Figura 1: Distribuição de quatro variáveis numéricas — note a diferença de forma entre elas.

Observe como as distribuições diferem: a idade e o peso apresentam distribuições mais simétricas, enquanto a glicose apresenta forte assimetria à direita — com uma cauda longa de valores elevados, típica de variáveis metabólicas em populações que incluem pacientes diabéticos.

O boxplot: cinco números que contam uma história

O boxplot (diagrama de caixa) é talvez a ferramenta mais elegante que Tukey legou à estatística. Com apenas cinco números — mínimo, primeiro quartil (Q1), mediana, terceiro quartil (Q3) e máximo — ele resume a distribuição inteira e ainda identifica valores atípicos (3).

Figura 2: Anatomia do boxplot — os cinco números de Tukey aplicados ao colesterol do estudo.

A caixa cobre o intervalo interquartil (IIQ = Q3 − Q1), contendo os 50% centrais dos dados. A linha central é a mediana. Os bigodes se estendem até o valor mais extremo que esteja dentro de 1,5 × IIQ a partir da caixa. Pontos além dos bigodes são sinalizados como potenciais outliers — valores que merecem investigação (não necessariamente exclusão).

O boxplot é especialmente útil para comparar grupos:

Figura 3: Comparação da pressão sistólica entre sexos — o boxplot revela diferenças de mediana, dispersão e outliers.

O resumo dos cinco números

O five-number summary de Tukey — mínimo, Q1, mediana, Q3 e máximo — é a base do boxplot e uma forma poderosa de descrever qualquer variável numérica sem pressupor simetria ou normalidade (3).

Tabela 7: Resumo dos cinco números para as variáveis numéricas do estudo.
Variável Mín Q1 Mediana Q3 Máx
idade 19.0 34.0 45.0 60.0 92.0
colesterol 78.0 179.0 204.0 230.0 443.0
glicose 48.0 81.0 89.0 106.0 385.0
hdl 12.0 38.0 46.0 59.0 120.0
peso 44.9 68.5 78.2 90.7 147.4
altura 132.1 160.0 167.6 175.3 193.0
sistolica 90.0 121.2 136.0 146.8 250.0
diastolica 48.0 75.0 82.0 90.0 124.0

Como reportar dados numéricos

A forma de reportar uma variável numérica depende da simetria de sua distribuição. As duas convenções mais comuns na literatura em saúde são:

Tabela 8: Convenções para reportar dados numéricos em artigos científicos.
Situação Como reportar Exemplo do estudo Teste de comparação
Distribuição simétrica (aproximadamente normal) Média ± desvio-padrão (DP) Colesterol: 207,8 ± 44,4 mg/dL Teste t, ANOVA
Distribuição assimétrica ou com outliers Mediana (intervalo interquartil: Q1 – Q3) Glicose: 90,0 (81,0 – 106,0) mg/dL Mann-Whitney, Kruskal-Wallis
ImportanteNão misture as convenções

Se a variável é reportada como mediana (IIQ), o teste de comparação deve ser não paramétrico (Mann-Whitney, Kruskal-Wallis). Se é reportada como média ± DP, o teste correspondente é o paramétrico (teste t, ANOVA). A coerência entre a estatística descritiva e o teste inferencial é fundamental — e revisores de periódicos frequentemente apontam essa inconsistência (7).

Transformações: quando os dados não cooperam

Variáveis com distribuição muito assimétrica — como a glicose no nosso estudo — podem dificultar a aplicação de métodos que pressupõem normalidade. Uma estratégia comum é aplicar uma transformação matemática que aproxime a distribuição de uma forma mais simétrica.

A transformação mais usada é o logaritmo natural (ln). Ela comprime os valores mais altos mais intensamente do que os mais baixos, o que frequentemente reduz a assimetria à direita.”

Figura 4: Efeito da transformação logarítmica sobre a distribuição da glicose.

A transformação logarítmica é especialmente útil para variáveis biológicas estritamente positivas e com assimetria à direita, como concentrações sanguíneas, tempos de reação e algumas medidas laboratoriais. Em muitos casos, ela reduz a assimetria e estabiliza a variabilidade, o que pode tornar mais apropriado o uso de métodos paramétricos. Após a análise, os resultados podem ser reexpressos na escala original; por exemplo, a média dos valores transformados em log, quando retransformada, corresponde à média geométrica. (12).

NotaCuidado com a interpretação

A transformação facilita a análise estatística, mas os resultados devem ser interpretados na escala original. Uma diferença de 0,3 em ln(glicose) não é intuitiva para o clínico — é preciso converter de volta para mg/dL.

Resumo do capítulo

Tabela 9: Resumo — dados numéricos em pesquisa em saúde.
Conceito Definição Exemplo do estudo
Variáveis discretas Resultado de contagem; valores inteiros sem frações significativas Nº de internações, nº de filhos
Variáveis contínuas Resultado de medição; qualquer valor em um intervalo contínuo Peso (kg), colesterol (mg/dL), pressão (mmHg)
Escala intervalar Zero arbitrário; diferenças significativas, razões sem sentido Temperatura (°C), ano calendário
Escala de razão Zero absoluto; todas as operações aritméticas são válidas Peso (kg), altura (cm), colesterol (mg/dL)
Tendência central Média (distribuição simétrica) ou mediana (assimétrica) Colesterol: média = 207,8; Glicose: mediana = 90,0
Dispersão DP (com a média) ou IIQ (com a mediana) Colesterol: DP = 44,4; Glicose: IIQ = 81,0 – 106,0
Boxplot Resumo visual dos cinco números de Tukey — revela centro, dispersão e outliers Comparação de pressão sistólica entre sexos
Transformação logarítmica Comprime assimetria à direita; útil para variáveis biológicas Glicose em escala log → distribuição simétrica
NotaPróximos passos

Este capítulo explorou os dados numéricos — sua classificação, descrição e visualização. No próximo capítulo, faremos o mesmo percurso para os dados categóricos: nominais, ordinais e as armadilhas de tratar categorias como números.

Referências

1.
Quetelet A. Sur l’Homme et Le Développement de Ses Facultés, Ou Essai de Physique Sociale. Paris: Bachelier; 1835.
2.
Stigler SM. The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, MA: Harvard University Press; 1986.
3.
Tukey JW. Exploratory Data Analysis. Reading, MA: Addison-Wesley; 1977.
4.
Kaliyadan F, Kulkarni V. Types of Variables, Descriptive Statistics, and Sample Size. Indian dermatology online journal. 2019 Jan-Feb;10(1):82–6.
5.
Andrade C. Age as a Variable: Continuous or Categorical? Indian Journal of Psychiatry. outubro de 2017;59:524–5.
6.
Voor in ‘t holt AF. Age: A Variable Whose Definition We Should Not Ignore. Infection Control & Hospital Epidemiology. 2019;40(12):1444–5.
7.
Altman DG, Royston P. The Cost of Dichotomising Continuous Variables. BMJ (Clinical research ed). 2006;332(7549):1080.
8.
Stevens SS. On the Theory of Scales of Measurement. Science. 1946;103(2684):677–80.
9.
Velleman PF, Wilkinson L. Nominal, Ordinal, Interval, and Ratio Typologies Are Misleading. The American Statistician. 1993;47(1):65–72.
10.
Agresti A. Statistical Methods for the Social Sciences. 5.ª ed. Boston: Pearson; 2018.
11.
Norman G. Likert Scales, Levels of Measurement and the «Laws» of Statistics. Advances in Health Sciences Education. 2010;15(5):625–32.
12.
Freedman DA, Pisani R, Purves RA. Statistics. 4.ª ed. New York: W. W. Norton & Company; 2007.