| Variável | Unidade | Tipo | Instrumento / origem |
|---|---|---|---|
| idade | anos | Contínua* | Registro civil |
| colesterol | mg/dL | Contínua | Dosagem laboratorial |
| glicose | mg/dL | Contínua | Dosagem laboratorial |
| hdl | mg/dL | Contínua | Dosagem laboratorial |
| ratio | adimensional | Contínua | Calculado (colesterol/hdl) |
| glicohemoglobina | % (HbA1c) | Contínua | Dosagem laboratorial |
| peso | kg | Contínua | Balança |
| altura | cm | Contínua | Estadiômetro |
| sistolica | mmHg | Contínua | Esfigmomanômetro |
| diastolica | mmHg | Contínua | Esfigmomanômetro |
| cintura | cm | Contínua | Fita métrica |
| quadril | cm | Contínua | Fita métrica |
Dados Numéricos
Discretos, contínuos e tudo o que podemos medir
A história
Em 1835, o astrônomo e matemático belga Adolphe Quetelet publicou Sur l’Homme et le Développement de ses Facultés — um tratado ambicioso que propunha aplicar à sociedade humana os mesmos métodos que a astronomia usava para medir estrelas. Quetelet coletou milhares de medidas de altura, peso e perímetro torácico de soldados e civis, e descobriu algo que o fascinava: quando agrupadas, essas medições formavam uma curva em sino — a distribuição normal — com notável regularidade. Ele chamou o centro dessa curva de l’homme moyen: o “homem médio” (1,2).
A ideia era revolucionária. Até então, variações individuais eram vistas como erros de observação — ruído a ser eliminado. Quetelet inverteu a lógica: a variação entre indivíduos era real e mensurável, e a média era uma descrição legítima do grupo. Nasciam ali dois conceitos que até hoje são a base de qualquer análise de dados numéricos: a tendência central e a dispersão.
Mais de um século depois, em 1977, John Tukey publicou Exploratory Data Analysis, um livro que mudaria a forma como estatísticos olham para números antes de testá-los. A premissa de Tukey era direta: “É importante entender o que você pode fazer antes de aprender a medir quão bem você parece ter feito” (3). Em vez de começar com hipóteses e testes formais, Tukey propunha que o analista primeiro explorasse seus dados — usando gráficos simples, resumos numéricos e ferramentas visuais como o diagrama de ramo-e-folhas e o boxplot. A exploração revelaria padrões, anomalias e surpresas que testes confirmatórios jamais detectariam sozinhos.
A lição conjunta de Quetelet e Tukey é o tema deste capítulo: dados numéricos carregam informação rica — média, dispersão, forma, outliers — mas essa riqueza só se revela quando sabemos o que procurar e como descrever.
Antes de testar, explore. Antes de modelar, descreva. A análise exploratória não é um passo opcional — é o primeiro passo.
O que são dados numéricos?
Dados numéricos (ou quantitativos) representam quantidades mensuráveis. São valores sobre os quais operações aritméticas — soma, subtração, média, desvio-padrão — produzem resultados com significado. No R, são armazenados como integer (inteiros) ou numeric/double (decimais).
A definição parece simples, mas carrega uma implicação profunda: se um valor é numérico, a distância entre dois valores tem significado. A diferença entre 120 e 140 mmHg de pressão sistólica (20 mmHg) é a mesma que entre 140 e 160 mmHg. Isso não ocorre com dados categóricos ordinais — a distância entre “leve” e “moderado” não é necessariamente igual à distância entre “moderado” e “grave”.
No nosso banco de dados, a maioria das variáveis é numérica:
* A variável idade merece uma discussão à parte — veja o callout mais adiante.
Discretos vs. contínuos
A distinção mais fundamental entre dados numéricos é entre discretos e contínuos. Embora o Capítulo 2 já tenha introduzido essa classificação, aqui a aprofundamos com exemplos, critérios e casos-limite.
Variáveis numéricas discretas
Dados discretos assumem valores inteiros e finitos (ou infinitos enumeráveis), sem frações significativas no contexto da medição. Um teste prático ajuda a identificá-los: se, para qualquer par de valores observados, o valor intermediário não faz sentido no contexto da variável, ela é discreta (4). Entre 5 e 8 lesões, “6,5 lesões” não existe. Não faz sentido dizer que um paciente teve 2,7 internações ou que uma família tem 1,3 filhos.
| Variável | Valores possíveis | Operação | Distribuição típica |
|---|---|---|---|
| Número de internações | 0, 1, 2, 3, … | Contagem | Poisson |
| Número de filhos | 0, 1, 2, 3, … | Contagem | Poisson |
| Quantidade de medicamentos | 0, 1, 2, 3, … | Contagem | Poisson |
| Número de consultas/ano | 0, 1, 2, 3, … | Contagem | Poisson |
| Número de lesões cutâneas | 0, 1, 2, 3, … | Contagem | Poisson / Binomial negativa |
| Número de dentes cariados | 0, 1, 2, 3, … | Contagem | Binomial |
Variáveis numéricas contínuas
Dados contínuos podem assumir qualquer valor dentro de um intervalo — incluindo frações arbitrariamente precisas. A precisão é limitada apenas pelo instrumento de medida, não pela natureza da variável.
O mesmo teste prático funciona ao inverso: se, para qualquer par de valores, o valor intermediário faz sentido, a variável é contínua (4). Entre um paciente com 72,0 kg e outro com 74,0 kg, um paciente com 73,0 kg é perfeitamente plausível — assim como 72,5 ou 73,217 kg.
| Variável | Unidade | n válidos | Mín | Máx | Média | DP |
|---|---|---|---|---|---|---|
| colesterol | mg/dL | 402 | 78.00 | 443.00 | 207.8 | 44.4 |
| glicose | mg/dL | 403 | 48.00 | 385.00 | 106.7 | 53.1 |
| hdl | mg/dL | 402 | 12.00 | 120.00 | 50.4 | 17.3 |
| glicohemoglobina | % (HbA1c) | 390 | 2.68 | 16.11 | 5.6 | 2.2 |
| peso | kg | 402 | 44.91 | 147.42 | 80.6 | 18.3 |
| altura | cm | 398 | 132.08 | 193.04 | 167.7 | 10.0 |
| sistolica | mmHg | 398 | 90.00 | 250.00 | 136.9 | 22.7 |
| diastolica | mmHg | 398 | 48.00 | 124.00 | 83.3 | 13.6 |
No nosso banco de dados, a variável idade aparece registrada como números inteiros (19, 23, 45, …). Isso torna a idade uma variável discreta? A resposta exige cuidado.
O tempo — e, portanto, o envelhecimento — é um fenômeno intrinsecamente contínuo. O fato de a idade ser comumente expressa em anos inteiros não a transforma em variável discreta: o que define a natureza da escala não são os valores efetivamente registrados, mas o potencial da escala de acomodar valores decimais (5). A prova é que a idade de crianças é rotineiramente expressa em meses e a de neonatos em dias — precisamente porque a precisão em anos inteiros seria insuficiente.
Um teste simples ajuda a esclarecer: se, para qualquer par de valores observados, o valor intermediário é significativo, a variável é contínua (4). Entre um paciente de 40 anos e outro de 41, um paciente de 40,5 anos faz perfeito sentido — diferentemente de “6,5 lesões”, que não faz.
Na prática da pesquisa, a maioria dos artigos sequer especifica como a idade foi calculada — se na admissão, na inclusão no estudo ou no momento do desfecho — e se foram considerados meses ou apenas anos inteiros (6).
O risco maior, porém, está em categorizar a idade em faixas etárias quando isso não é necessário. Altman e Royston demonstram que dicotomizar uma variável contínua pela mediana reduz o poder estatístico tanto quanto descartar um terço dos dados (7). A recomendação é clara: sempre que possível, mantenha a idade como variável contínua na análise.
Em resumo: a idade é uma variável contínua por natureza, frequentemente registrada de forma discreta (em anos inteiros) e por vezes indevidamente categorizada em faixas etárias. Reconhecer essa distinção é fundamental para escolher a análise estatística correta.
Escalas intervalar e de razão: uma distinção que ficou na teoria
Nos capítulos anteriores, classificamos variáveis em dois grandes grupos: numéricas e categóricas. Peso é numérico. Sexo é categórico. Pressão arterial é numérica. Tipo sanguíneo é categórico. Essa divisão é intuitiva, funciona bem na prática e guia praticamente todas as decisões que tomamos ao escolher um teste estatístico ou um tipo de gráfico.
Mas quem já cursou uma disciplina de bioestatística — ou folheou um livro-texto antes de chegar a este — provavelmente aprendeu uma classificação mais detalhada. Não dois tipos, mas quatro: nominal, ordinal, intervalar e de razão. A sigla NOIR (Nominal, Ordinal, Interval, Ratio), proposta por Stevens em 1946, aparece em praticamente todo curso introdutório e foi apresentada no Capítulo 2 deste livro (8). E se nominal e ordinal correspondem ao que chamamos de categórico, o ramo numérico deveria, pela lógica de Stevens, ser subdividido em mais dois: intervalar e de razão.
A diferença entre escalas intervalar e de razão se resume a uma pergunta: o zero da escala significa ausência da grandeza?
Na escala intervalar, o zero é arbitrário — não representa ausência da grandeza. O exemplo clássico é a temperatura em graus Celsius: 0 °C não significa “ausência de temperatura”, mas sim o ponto de congelamento da água. Consequência: podemos calcular diferenças (a diferença entre 20 °C e 30 °C são 10 °C), mas não razões (30 °C não é “o dobro” de 15 °C em termos de calor).
Na escala de razão, o zero é absoluto — representa ausência da grandeza. Peso, altura, concentração de colesterol e pressão arterial são exemplos. Um paciente com 80 kg pesa exatamente o dobro de um com 40 kg. As quatro operações aritméticas e todas as estatísticas descritivas são válidas.
| Aspecto | Escala intervalar | Escala de razão |
|---|---|---|
| Zero | Arbitrário (convenção) | Absoluto (ausência da grandeza) |
| Diferenças | Significativas (10 °C de diferença) | Significativas (10 kg de diferença) |
| Razões | Sem sentido (30 °C ≠ 2 × 15 °C) | Significativas (80 kg = 2 × 40 kg) |
| Exemplo clínico | Temperatura em °C, ano calendário | Peso (kg), colesterol (mg/dL), altura (cm) |
| Estatísticas | Média, DP, correlação de Pearson | Todas + média geométrica, CV |
Por que essa distinção ficou na teoria
A distinção é conceitualmente correta. Mas na prática da análise de dados — especialmente em saúde — ela perdeu relevância por quatro razões convergentes.
O software não a reconhece. As duas linguagens dominantes na análise de dados em saúde — R e Python — organizam suas variáveis em tipos que não incluem a distinção intervalar/razão. No R, uma variável numérica é numeric ou integer; uma categórica é factor. No Python (pandas), temos float64 e category. Em nenhum dos dois ambientes existe um tipo interval separado de ratio. Quando a ferramenta que o mundo inteiro usa para analisar dados não reconhece uma distinção, é um sinal forte de que essa distinção não muda as decisões práticas de análise.
As operações estatísticas são as mesmas. Média, desvio-padrão, teste t, ANOVA, correlação de Pearson, regressão linear — todas essas ferramentas pressupõem apenas que as distâncias entre valores são significativas, o que é verdade tanto para escalas intervalares quanto para escalas de razão. A única operação que a escala de razão permite e a intervalar não — a razão entre valores (ex: “o dobro”) — raramente aparece como parte de um teste estatístico formal.
Variáveis intervalares são raras em saúde. Na pesquisa clínica e epidemiológica, a grande maioria das variáveis numéricas é de razão: peso, altura, pressão, colesterol, glicose, frequência cardíaca, contagens celulares. Os exemplos clássicos de escala intervalar — temperatura em °C, ano calendário, escore de QI — aparecem com pouca frequência em bancos de dados clínicos. Uma distinção que raramente se aplica é uma distinção que raramente importa.
A literatura aponta na mesma direção. Velleman e Wilkinson, em uma crítica influente à taxonomia de Stevens, concluem que a distinção operacional relevante na prática é entre “categorical factors” (nominais e ordinais) e “continuous covariates” (intervalares e de razão) — exatamente a divisão que adotamos neste livro. A seção 7 de seu artigo é intitulada, significativamente, “Good data analysis does not assume data types”, e a seção 8 conclui que “the scale type of data depends on the questions we intend to ask” (9). Agresti, em seu livro-texto de referência, organiza a classificação principal em “quantitative” e “categorical”, apresentando a subdivisão intervalar/razão como nota conceitual, não como divisor de análise (10). Norman demonstra que testes paramétricos produzem resultados válidos independentemente de o dado ser intervalar ou de razão — a robustez a violações de pressupostos de escala é documentada há décadas (11).
O que adotamos neste livro
Diante dessas evidências, este livro trabalha com a classificação em dois grandes ramos: numérico (discreto ou contínuo) e categórico (nominal ou ordinal). Essa é a divisão que determina as decisões reais do dia a dia: se usamos média ou proporção, histograma ou barras, teste t ou qui-quadrado.
Em alguns contextos específicos, a diferença entre escalas intervalar e de razão pode ser relevante — por exemplo, na interpretação do coeficiente de variação (que pressupõe zero absoluto) ou no uso da média geométrica. Mas, para a grande maioria das análises em saúde, a pergunta que realmente muda a abordagem é: o dado é numérico ou categórico?
Descrevendo dados numéricos
Descrever adequadamente uma variável numérica exige responder a três perguntas: onde estão os dados? (tendência central), quão espalhados estão? (dispersão) e qual a forma da distribuição? (simetria, outliers).
Medidas de tendência central
As três medidas clássicas — média, mediana e moda — respondem de formas diferentes à pergunta “qual é o valor típico?”.
| Variável | Média | Mediana | Diferença | Interpretação |
|---|---|---|---|---|
| colesterol | 207.8 | 204.0 | 3.8 | Assimetria à direita (cauda longa para valores altos) |
| glicose | 106.7 | 89.0 | 17.7 | Assimetria à direita (cauda longa para valores altos) |
| peso | 80.6 | 78.2 | 2.4 | Assimetria à direita (cauda longa para valores altos) |
| idade | 46.9 | 45.0 | 1.9 | Distribuição aproximadamente simétrica |
| sistolica | 136.9 | 136.0 | 0.9 | Distribuição aproximadamente simétrica |
Quando a média e a mediana são próximas, a distribuição tende a ser simétrica. Quando divergem, há assimetria — e a mediana é geralmente a medida mais representativa do “valor típico”, pois é menos influenciada por valores extremos (12).
Medidas de dispersão
A tendência central sozinha não basta. Dois grupos podem ter a mesma média e distribuições completamente diferentes. As medidas de dispersão capturam essa variabilidade.
| Variável | Desvio-padrão | Intervalo interquartil | Amplitude |
|---|---|---|---|
| colesterol | 44.4 | 51.0 | 365.0 |
| glicose | 53.1 | 25.0 | 337.0 |
| peso | 18.3 | 22.2 | 102.5 |
| idade | 16.3 | 26.0 | 73.0 |
| sistolica | 22.7 | 25.5 | 160.0 |
O desvio-padrão (DP) é a medida mais usada: quanto maior, mais os dados se espalham ao redor da média. O intervalo interquartil (IIQ) — a diferença entre o percentil 75 e o percentil 25 — é robusto a outliers e complementa a mediana da mesma forma que o DP complementa a média. A amplitude (máximo − mínimo) é simples mas muito sensível a valores extremos.
A forma da distribuição
A distribuição de uma variável numérica revela padrões que nenhuma estatística isolada consegue capturar: simetria, caudas longas, picos múltiplos e valores atípicos. É aqui que a lição de Tukey se materializa — a exploração visual é insubstituível (3).
Observe como as distribuições diferem: a idade e o peso apresentam distribuições mais simétricas, enquanto a glicose apresenta forte assimetria à direita — com uma cauda longa de valores elevados, típica de variáveis metabólicas em populações que incluem pacientes diabéticos.
O boxplot: cinco números que contam uma história
O boxplot (diagrama de caixa) é talvez a ferramenta mais elegante que Tukey legou à estatística. Com apenas cinco números — mínimo, primeiro quartil (Q1), mediana, terceiro quartil (Q3) e máximo — ele resume a distribuição inteira e ainda identifica valores atípicos (3).
A caixa cobre o intervalo interquartil (IIQ = Q3 − Q1), contendo os 50% centrais dos dados. A linha central é a mediana. Os bigodes se estendem até o valor mais extremo que esteja dentro de 1,5 × IIQ a partir da caixa. Pontos além dos bigodes são sinalizados como potenciais outliers — valores que merecem investigação (não necessariamente exclusão).
O boxplot é especialmente útil para comparar grupos:
O resumo dos cinco números
O five-number summary de Tukey — mínimo, Q1, mediana, Q3 e máximo — é a base do boxplot e uma forma poderosa de descrever qualquer variável numérica sem pressupor simetria ou normalidade (3).
| Variável | Mín | Q1 | Mediana | Q3 | Máx |
|---|---|---|---|---|---|
| idade | 19.0 | 34.0 | 45.0 | 60.0 | 92.0 |
| colesterol | 78.0 | 179.0 | 204.0 | 230.0 | 443.0 |
| glicose | 48.0 | 81.0 | 89.0 | 106.0 | 385.0 |
| hdl | 12.0 | 38.0 | 46.0 | 59.0 | 120.0 |
| peso | 44.9 | 68.5 | 78.2 | 90.7 | 147.4 |
| altura | 132.1 | 160.0 | 167.6 | 175.3 | 193.0 |
| sistolica | 90.0 | 121.2 | 136.0 | 146.8 | 250.0 |
| diastolica | 48.0 | 75.0 | 82.0 | 90.0 | 124.0 |
Como reportar dados numéricos
A forma de reportar uma variável numérica depende da simetria de sua distribuição. As duas convenções mais comuns na literatura em saúde são:
| Situação | Como reportar | Exemplo do estudo | Teste de comparação |
|---|---|---|---|
| Distribuição simétrica (aproximadamente normal) | Média ± desvio-padrão (DP) | Colesterol: 207,8 ± 44,4 mg/dL | Teste t, ANOVA |
| Distribuição assimétrica ou com outliers | Mediana (intervalo interquartil: Q1 – Q3) | Glicose: 90,0 (81,0 – 106,0) mg/dL | Mann-Whitney, Kruskal-Wallis |
Se a variável é reportada como mediana (IIQ), o teste de comparação deve ser não paramétrico (Mann-Whitney, Kruskal-Wallis). Se é reportada como média ± DP, o teste correspondente é o paramétrico (teste t, ANOVA). A coerência entre a estatística descritiva e o teste inferencial é fundamental — e revisores de periódicos frequentemente apontam essa inconsistência (7).
Transformações: quando os dados não cooperam
Variáveis com distribuição muito assimétrica — como a glicose no nosso estudo — podem dificultar a aplicação de métodos que pressupõem normalidade. Uma estratégia comum é aplicar uma transformação matemática que aproxime a distribuição de uma forma mais simétrica.
A transformação mais usada é o logaritmo natural (ln). Ela comprime os valores mais altos mais intensamente do que os mais baixos, o que frequentemente reduz a assimetria à direita.”
A transformação logarítmica é especialmente útil para variáveis biológicas estritamente positivas e com assimetria à direita, como concentrações sanguíneas, tempos de reação e algumas medidas laboratoriais. Em muitos casos, ela reduz a assimetria e estabiliza a variabilidade, o que pode tornar mais apropriado o uso de métodos paramétricos. Após a análise, os resultados podem ser reexpressos na escala original; por exemplo, a média dos valores transformados em log, quando retransformada, corresponde à média geométrica. (12).
A transformação facilita a análise estatística, mas os resultados devem ser interpretados na escala original. Uma diferença de 0,3 em ln(glicose) não é intuitiva para o clínico — é preciso converter de volta para mg/dL.
Resumo do capítulo
| Conceito | Definição | Exemplo do estudo |
|---|---|---|
| Variáveis discretas | Resultado de contagem; valores inteiros sem frações significativas | Nº de internações, nº de filhos |
| Variáveis contínuas | Resultado de medição; qualquer valor em um intervalo contínuo | Peso (kg), colesterol (mg/dL), pressão (mmHg) |
| Escala intervalar | Zero arbitrário; diferenças significativas, razões sem sentido | Temperatura (°C), ano calendário |
| Escala de razão | Zero absoluto; todas as operações aritméticas são válidas | Peso (kg), altura (cm), colesterol (mg/dL) |
| Tendência central | Média (distribuição simétrica) ou mediana (assimétrica) | Colesterol: média = 207,8; Glicose: mediana = 90,0 |
| Dispersão | DP (com a média) ou IIQ (com a mediana) | Colesterol: DP = 44,4; Glicose: IIQ = 81,0 – 106,0 |
| Boxplot | Resumo visual dos cinco números de Tukey — revela centro, dispersão e outliers | Comparação de pressão sistólica entre sexos |
| Transformação logarítmica | Comprime assimetria à direita; útil para variáveis biológicas | Glicose em escala log → distribuição simétrica |
Este capítulo explorou os dados numéricos — sua classificação, descrição e visualização. No próximo capítulo, faremos o mesmo percurso para os dados categóricos: nominais, ordinais e as armadilhas de tratar categorias como números.