Visualizando por Tipo de Dado

Qual gráfico usar para cada tipo de variável — e por que o tipo de dado determina a escolha

A ponte entre classificação e visualização

Os capítulos anteriores estabeleceram uma base: aprendemos a classificar variáveis em numéricas (discretas e contínuas) e categóricas (nominais e ordinais), a reconhecer casos especiais e a organizar dados em planilhas. Agora, a pergunta natural é: como visualizar esses dados?

A resposta depende, antes de tudo, do tipo de dado. Uma variável numérica contínua pede um histograma ou boxplot; uma variável categórica nominal pede um gráfico de barras; o cruzamento de uma variável numérica com uma categórica pede boxplots lado a lado. Essa correspondência não é arbitrária — ela reflete a natureza das operações que fazem sentido para cada tipo de escala (1,2).

Este capítulo não pretende ser um guia completo de visualização estatística — para isso, existe o site Dos Dados aos Gráficos, que cobre em profundidade a gramática dos gráficos, cada tipo de gráfico, princípios de Tufte, pensamento crítico e ferramentas. O objetivo aqui é mais específico: mostrar como a classificação do tipo de dado — o tema central deste projeto — determina a escolha do gráfico adequado.

DicaA regra de ouro da visualização

O tipo de dado determina o tipo de gráfico. Antes de escolher como visualizar, pergunte: que tipo de variável estou representando? A resposta restringe automaticamente as opções válidas.

Uma variável numérica: distribuição

Quando temos uma variável numérica e queremos entender sua distribuição — onde se concentram os valores, se há assimetria, se existem outliers — os gráficos adequados são o histograma e o boxplot. Ambos exploram a natureza contínua (ou quase contínua) dos dados: a capacidade de ordenar valores e medir distâncias entre eles.

Figura 1: Duas formas de ver a mesma variável numérica (colesterol): o histograma revela a forma da distribuição; o boxplot resume os cinco números de Tukey.

O histograma é mais informativo — mostra bimodalidade, lacunas e a forma detalhada da curva. O boxplot é mais conciso — resume cinco números e sinaliza outliers. Na prática, o histograma é útil para exploração e o boxplot para comparação entre grupos (2).

NotaHistograma ≠ gráfico de barras

Embora visualmente parecidos, o histograma e o gráfico de barras são gráficos fundamentalmente diferentes. O histograma representa intervalos contínuos (as barras se tocam porque os valores são adjacentes); o gráfico de barras representa categorias discretas (as barras são separadas porque as categorias são distintas). Essa distinção reflete diretamente a diferença entre dados numéricos e categóricos.

Uma variável categórica: frequências

Para variáveis categóricas — nominais ou ordinais — o gráfico adequado é o gráfico de barras, que mostra a frequência (ou proporção) de cada categoria. O gráfico de barras respeita a natureza do dado: as categorias são posições discretas, e a altura da barra representa a contagem ou percentual.

Figura 2: Gráficos de barras para variáveis nominais (sexo) e ordinais (biotipo) — note que a ordem das barras só importa para a ordinal.

Para variáveis nominais, a ordem das barras é arbitrária — podemos ordenar por frequência (maior para menor) para facilitar a leitura. Para variáveis ordinais, a ordem das barras deve respeitar a hierarquia dos níveis — small < medium < large — porque a posição no eixo carrega informação.

Numérica × categórica: comparação entre grupos

Uma das visualizações mais úteis em pesquisa em saúde é a comparação de uma variável numérica entre grupos definidos por uma variável categórica. O gráfico que faz isso de forma compacta e informativa é o boxplot por grupo.

Figura 3: Comparação da glicose entre sexos — o boxplot permite comparar medianas, dispersão e outliers num único gráfico.

O boxplot por grupo combina informação de duas variáveis — uma numérica (glicose) e uma categórica (sexo) — permitindo comparar tendência central, dispersão e valores atípicos entre grupos. É o gráfico correspondente ao teste t ou Mann-Whitney, assim como o scatter plot é o gráfico correspondente à correlação.

Figura 4: Peso por biotipo — a variável ordinal mantém sua ordem no eixo x.

Duas variáveis numéricas: relação

Quando temos duas variáveis numéricas e queremos avaliar se existe relação entre elas, o gráfico adequado é o scatter plot (diagrama de dispersão). Cada ponto representa um sujeito, posicionado segundo os valores das duas variáveis nos eixos x e y.

Figura 5: Relação entre peso e colesterol — cada ponto é um paciente. O scatter plot é o gráfico da correlação.

O scatter plot só faz sentido com duas variáveis numéricas — porque ambos os eixos precisam representar magnitudes contínuas. Para uma variável ordinal no eixo, o scatter plot perderia sua lógica visual; para uma nominal, não haveria como posicionar os pontos de forma significativa.

Figura 6: Scatter plot com destaque por sexo — adicionando uma terceira variável (categórica) por cor.

A cor pode codificar uma terceira variável — geralmente categórica — permitindo investigar se a relação entre as duas variáveis numéricas difere entre grupos.

Duas variáveis categóricas: associação

Para visualizar a associação entre duas variáveis categóricas, o gráfico de barras empilhadas proporcionais ou o mosaico são as opções adequadas. Eles representam visualmente a tabela de contingência que vimos no Capítulo 5.

Figura 7: Distribuição do biotipo por sexo — barras empilhadas proporcionais permitem comparar perfis entre grupos.

O erro clássico: gráfico errado para o dado

Alguns erros de visualização resultam diretamente de ignorar o tipo de dado. São erros que nenhum ajuste estético resolve — porque o problema é estrutural.

Tabela 1: Erros clássicos de visualização — cada um viola a correspondência entre tipo de dado e tipo de gráfico.
Erro Por que está errado Alternativa correta
Histograma para dados categóricos Categorias não têm adjacência — as barras não devem se tocar Usar gráfico de barras (com espaço entre as barras)
Pizza para variável numérica Proporções de faixas numéricas não somam um ‘todo’ natural Usar barras para distribuição por faixas ou histograma para a variável contínua
Linha conectando categorias nominais Linhas implicam continuidade entre pontos — categorias nominais são discretas Usar barras; linhas só para dados temporais ou ordinais
Média em gráfico de dados ordinais A linha da média pressupõe distâncias iguais entre níveis ordinais Reportar mediana ou mostrar frequências por nível
Scatter plot com variável categórica no eixo Pontos empilhados numa mesma coordenada x não revelam distribuição Usar boxplot por grupo ou gráficos de violino
Barras com eixo y que não começa em zero Barras representam magnitude a partir de zero — truncar distorce proporções Iniciar o eixo y em zero para barras; para linhas, a regra é mais flexível
ImportanteO teste rápido

Antes de criar um gráfico, faça duas perguntas: (1) Quantas variáveis estou representando? e (2) De que tipo são? As respostas restringem automaticamente as opções válidas — e eliminam os erros mais comuns.

Guia rápido: tipo de dado → gráfico

A tabela a seguir resume a correspondência central deste capítulo. Para cada combinação de variáveis, há gráficos recomendados e gráficos inadequados.

Tabela 2: Guia rápido — qual gráfico usar para cada tipo de variável. Para detalhes sobre cada gráfico, consulte o site Dos Dados aos Gráficos.
Situação Objetivo Gráfico recomendado Evitar
1 variável numérica contínua Ver a distribuição Histograma, densidade, boxplot Barras separadas, pizza
1 variável numérica discreta Ver a frequência de valores Gráfico de barras (contagem), dot plot Histograma com bins não inteiros
1 variável categórica nominal Comparar proporções entre categorias Gráfico de barras Histograma, linha conectando categorias
1 variável categórica ordinal Comparar proporções respeitando a ordem Gráfico de barras (ordem fixa dos níveis) Pizza (perde a noção de ordem)
2 variáveis numéricas Avaliar relação entre elas Scatter plot (± linha de tendência) Barras agrupadas com médias
Numérica × categórica Comparar a numérica entre grupos Boxplot por grupo, violin plot Barras de médias sem dispersão
2 variáveis categóricas Avaliar associação Barras empilhadas, mosaico Scatter plot, linhas
Variável ao longo do tempo Mostrar tendência temporal Gráfico de linhas Barras (a menos que sejam intervalos discretos)

Para ir além

Este capítulo cobriu a lógica central: o tipo de dado determina o tipo de gráfico. Mas há muito mais a explorar — a gramática dos gráficos, os princípios de Tufte para design limpo e honesto, a galeria de erros clássicos e as ferramentas modernas (incluindo IA) para gerar visualizações em R.

Tudo isso está no site complementar Dos Dados aos Gráficos, que cobre:

Tabela 3: O que você encontra no site Dos Dados aos Gráficos — o complemento natural deste capítulo.
Parte Conteúdo
I. Fundamentos Quando usar um gráfico (vs. tabela), gramática dos gráficos (Wilkinson/Wickham), elementos de um gráfico, princípios de Tufte (data-ink ratio, chartjunk, lie factor)
II. Tipos de gráficos Pizza, barras, histograma, densidade, boxplot, scatter plot, linhas e curvas de Kaplan-Meier — cada um com anatomia, quando usar, erros comuns e código R
III. Pensamento crítico Gráficos que mudaram a história (Nightingale, Snow, Challenger), mesmos dados com histórias diferentes, galeria de horrores com makeover
IV. Ferramentas IA para gráficos (ChatGPT, Claude, Copilot), fluxograma interativo ‘Qual gráfico devo usar?’

Resumo do capítulo

Tabela 4: Resumo — a correspondência entre tipo de dado e tipo de gráfico.
Conceito Definição Exemplo do estudo
Tipo de dado → tipo de gráfico A natureza da variável restringe automaticamente os gráficos válidos Antes de escolher o gráfico, classifique a variável
Numérica contínua → histograma/boxplot Distribuição, forma, outliers — exploração de dados contínuos Colesterol: histograma mostra assimetria; boxplot mostra outliers
Categórica → barras Frequências e proporções — respeite a ordem se for ordinal Sexo: barras (ordem livre); biotipo: barras (small < medium < large)
Numérica × categórica → boxplot por grupo Comparação de distribuições entre grupos definidos por categorias Glicose por sexo: boxplots lado a lado com outliers sinalizados
Duas numéricas → scatter plot Relação entre magnitudes — cada ponto é uma observação Peso × colesterol: scatter plot com linha de tendência
Duas categóricas → barras empilhadas Associação entre categorias — versão visual da tabela de contingência Sexo × biotipo: barras empilhadas proporcionais
Temporal → linhas Tendência ao longo do tempo — linhas implicam continuidade temporal Incidência de doença por mês/ano: gráfico de linhas
Erro estrutural Usar o gráfico errado para o tipo de dado — nenhum ajuste estético resolve Histograma para categorias, pizza para variável contínua, linha para nominal
NotaPróximos passos

Este capítulo mostrou que o tipo de dado determina o gráfico. No próximo e último capítulo, reuniremos tudo: como reportar dados corretamente em tabelas e texto de artigos científicos — integrando classificação, descrição e apresentação.

Referências

1.
Cleveland WS, McGill R. Graphical Perception: Theory, Experimentation, and Application to the Development of Graphical Methods. Journal of the American Statistical Association. 1984;79(387):531–54.
2.
Healy K. Data Visualization: A Practical Introduction. Princeton University Press; 2018.