Visualizando por Tipo de Dado
Qual gráfico usar para cada tipo de variável — e por que o tipo de dado determina a escolha
A ponte entre classificação e visualização
Os capítulos anteriores estabeleceram uma base: aprendemos a classificar variáveis em numéricas (discretas e contínuas) e categóricas (nominais e ordinais), a reconhecer casos especiais e a organizar dados em planilhas. Agora, a pergunta natural é: como visualizar esses dados?
A resposta depende, antes de tudo, do tipo de dado. Uma variável numérica contínua pede um histograma ou boxplot; uma variável categórica nominal pede um gráfico de barras; o cruzamento de uma variável numérica com uma categórica pede boxplots lado a lado. Essa correspondência não é arbitrária — ela reflete a natureza das operações que fazem sentido para cada tipo de escala (1,2).
Este capítulo não pretende ser um guia completo de visualização estatística — para isso, existe o site Dos Dados aos Gráficos, que cobre em profundidade a gramática dos gráficos, cada tipo de gráfico, princípios de Tufte, pensamento crítico e ferramentas. O objetivo aqui é mais específico: mostrar como a classificação do tipo de dado — o tema central deste projeto — determina a escolha do gráfico adequado.
O tipo de dado determina o tipo de gráfico. Antes de escolher como visualizar, pergunte: que tipo de variável estou representando? A resposta restringe automaticamente as opções válidas.
Uma variável numérica: distribuição
Quando temos uma variável numérica e queremos entender sua distribuição — onde se concentram os valores, se há assimetria, se existem outliers — os gráficos adequados são o histograma e o boxplot. Ambos exploram a natureza contínua (ou quase contínua) dos dados: a capacidade de ordenar valores e medir distâncias entre eles.
O histograma é mais informativo — mostra bimodalidade, lacunas e a forma detalhada da curva. O boxplot é mais conciso — resume cinco números e sinaliza outliers. Na prática, o histograma é útil para exploração e o boxplot para comparação entre grupos (2).
Embora visualmente parecidos, o histograma e o gráfico de barras são gráficos fundamentalmente diferentes. O histograma representa intervalos contínuos (as barras se tocam porque os valores são adjacentes); o gráfico de barras representa categorias discretas (as barras são separadas porque as categorias são distintas). Essa distinção reflete diretamente a diferença entre dados numéricos e categóricos.
Uma variável categórica: frequências
Para variáveis categóricas — nominais ou ordinais — o gráfico adequado é o gráfico de barras, que mostra a frequência (ou proporção) de cada categoria. O gráfico de barras respeita a natureza do dado: as categorias são posições discretas, e a altura da barra representa a contagem ou percentual.
Para variáveis nominais, a ordem das barras é arbitrária — podemos ordenar por frequência (maior para menor) para facilitar a leitura. Para variáveis ordinais, a ordem das barras deve respeitar a hierarquia dos níveis — small < medium < large — porque a posição no eixo carrega informação.
Numérica × categórica: comparação entre grupos
Uma das visualizações mais úteis em pesquisa em saúde é a comparação de uma variável numérica entre grupos definidos por uma variável categórica. O gráfico que faz isso de forma compacta e informativa é o boxplot por grupo.
O boxplot por grupo combina informação de duas variáveis — uma numérica (glicose) e uma categórica (sexo) — permitindo comparar tendência central, dispersão e valores atípicos entre grupos. É o gráfico correspondente ao teste t ou Mann-Whitney, assim como o scatter plot é o gráfico correspondente à correlação.
Duas variáveis numéricas: relação
Quando temos duas variáveis numéricas e queremos avaliar se existe relação entre elas, o gráfico adequado é o scatter plot (diagrama de dispersão). Cada ponto representa um sujeito, posicionado segundo os valores das duas variáveis nos eixos x e y.
O scatter plot só faz sentido com duas variáveis numéricas — porque ambos os eixos precisam representar magnitudes contínuas. Para uma variável ordinal no eixo, o scatter plot perderia sua lógica visual; para uma nominal, não haveria como posicionar os pontos de forma significativa.
A cor pode codificar uma terceira variável — geralmente categórica — permitindo investigar se a relação entre as duas variáveis numéricas difere entre grupos.
Duas variáveis categóricas: associação
Para visualizar a associação entre duas variáveis categóricas, o gráfico de barras empilhadas proporcionais ou o mosaico são as opções adequadas. Eles representam visualmente a tabela de contingência que vimos no Capítulo 5.
O erro clássico: gráfico errado para o dado
Alguns erros de visualização resultam diretamente de ignorar o tipo de dado. São erros que nenhum ajuste estético resolve — porque o problema é estrutural.
| Erro | Por que está errado | Alternativa correta |
|---|---|---|
| Histograma para dados categóricos | Categorias não têm adjacência — as barras não devem se tocar | Usar gráfico de barras (com espaço entre as barras) |
| Pizza para variável numérica | Proporções de faixas numéricas não somam um ‘todo’ natural | Usar barras para distribuição por faixas ou histograma para a variável contínua |
| Linha conectando categorias nominais | Linhas implicam continuidade entre pontos — categorias nominais são discretas | Usar barras; linhas só para dados temporais ou ordinais |
| Média em gráfico de dados ordinais | A linha da média pressupõe distâncias iguais entre níveis ordinais | Reportar mediana ou mostrar frequências por nível |
| Scatter plot com variável categórica no eixo | Pontos empilhados numa mesma coordenada x não revelam distribuição | Usar boxplot por grupo ou gráficos de violino |
| Barras com eixo y que não começa em zero | Barras representam magnitude a partir de zero — truncar distorce proporções | Iniciar o eixo y em zero para barras; para linhas, a regra é mais flexível |
Antes de criar um gráfico, faça duas perguntas: (1) Quantas variáveis estou representando? e (2) De que tipo são? As respostas restringem automaticamente as opções válidas — e eliminam os erros mais comuns.
Guia rápido: tipo de dado → gráfico
A tabela a seguir resume a correspondência central deste capítulo. Para cada combinação de variáveis, há gráficos recomendados e gráficos inadequados.
| Situação | Objetivo | Gráfico recomendado | Evitar |
|---|---|---|---|
| 1 variável numérica contínua | Ver a distribuição | Histograma, densidade, boxplot | Barras separadas, pizza |
| 1 variável numérica discreta | Ver a frequência de valores | Gráfico de barras (contagem), dot plot | Histograma com bins não inteiros |
| 1 variável categórica nominal | Comparar proporções entre categorias | Gráfico de barras | Histograma, linha conectando categorias |
| 1 variável categórica ordinal | Comparar proporções respeitando a ordem | Gráfico de barras (ordem fixa dos níveis) | Pizza (perde a noção de ordem) |
| 2 variáveis numéricas | Avaliar relação entre elas | Scatter plot (± linha de tendência) | Barras agrupadas com médias |
| Numérica × categórica | Comparar a numérica entre grupos | Boxplot por grupo, violin plot | Barras de médias sem dispersão |
| 2 variáveis categóricas | Avaliar associação | Barras empilhadas, mosaico | Scatter plot, linhas |
| Variável ao longo do tempo | Mostrar tendência temporal | Gráfico de linhas | Barras (a menos que sejam intervalos discretos) |
Para ir além
Este capítulo cobriu a lógica central: o tipo de dado determina o tipo de gráfico. Mas há muito mais a explorar — a gramática dos gráficos, os princípios de Tufte para design limpo e honesto, a galeria de erros clássicos e as ferramentas modernas (incluindo IA) para gerar visualizações em R.
Tudo isso está no site complementar Dos Dados aos Gráficos, que cobre:
| Parte | Conteúdo |
|---|---|
| I. Fundamentos | Quando usar um gráfico (vs. tabela), gramática dos gráficos (Wilkinson/Wickham), elementos de um gráfico, princípios de Tufte (data-ink ratio, chartjunk, lie factor) |
| II. Tipos de gráficos | Pizza, barras, histograma, densidade, boxplot, scatter plot, linhas e curvas de Kaplan-Meier — cada um com anatomia, quando usar, erros comuns e código R |
| III. Pensamento crítico | Gráficos que mudaram a história (Nightingale, Snow, Challenger), mesmos dados com histórias diferentes, galeria de horrores com makeover |
| IV. Ferramentas | IA para gráficos (ChatGPT, Claude, Copilot), fluxograma interativo ‘Qual gráfico devo usar?’ |
Resumo do capítulo
| Conceito | Definição | Exemplo do estudo |
|---|---|---|
| Tipo de dado → tipo de gráfico | A natureza da variável restringe automaticamente os gráficos válidos | Antes de escolher o gráfico, classifique a variável |
| Numérica contínua → histograma/boxplot | Distribuição, forma, outliers — exploração de dados contínuos | Colesterol: histograma mostra assimetria; boxplot mostra outliers |
| Categórica → barras | Frequências e proporções — respeite a ordem se for ordinal | Sexo: barras (ordem livre); biotipo: barras (small < medium < large) |
| Numérica × categórica → boxplot por grupo | Comparação de distribuições entre grupos definidos por categorias | Glicose por sexo: boxplots lado a lado com outliers sinalizados |
| Duas numéricas → scatter plot | Relação entre magnitudes — cada ponto é uma observação | Peso × colesterol: scatter plot com linha de tendência |
| Duas categóricas → barras empilhadas | Associação entre categorias — versão visual da tabela de contingência | Sexo × biotipo: barras empilhadas proporcionais |
| Temporal → linhas | Tendência ao longo do tempo — linhas implicam continuidade temporal | Incidência de doença por mês/ano: gráfico de linhas |
| Erro estrutural | Usar o gráfico errado para o tipo de dado — nenhum ajuste estético resolve | Histograma para categorias, pizza para variável contínua, linha para nominal |
Este capítulo mostrou que o tipo de dado determina o gráfico. No próximo e último capítulo, reuniremos tudo: como reportar dados corretamente em tabelas e texto de artigos científicos — integrando classificação, descrição e apresentação.