| Razão | Descrição |
|---|---|
| Reprodutibilidade | Outros pesquisadores podem reaplicar suas análises e confirmar (ou corrigir) seus resultados |
| Verificação | Erros como o de Reinhart-Rogoff podem ser identificados e corrigidos — a ciência se autocorrige |
| Reutilização | Seus dados podem ser combinados com outros em meta-análises ou usados para responder perguntas que você não fez |
| Exigência editorial | Periódicos como PLOS ONE, Nature, BMJ e The Lancet exigem ou incentivam dados abertos como condição de publicação |
| Citação | Dados publicados em repositórios recebem DOI e podem ser citados como uma publicação independente |
| Transparência ética | Pesquisa financiada com dinheiro público gera dados que pertencem à sociedade — não ao pesquisador |
Publicando seus Dados
Dados abertos, princípios FAIR e a crise de reprodutibilidade
A história
Em 2005, um epidemiologista grego radicado nos Estados Unidos publicou um artigo com um título provocativo: Why Most Published Research Findings Are False. O artigo, publicado na PLOS Medicine, tornou-se o mais acessado da história da revista — e um dos mais citados da ciência moderna. A tese era perturbadora: combinando vieses de publicação, tamanhos amostrais pequenos, flexibilidade na análise e pressão por resultados positivos, a maioria dos achados publicados em periódicos científicos era provavelmente falsa (1).
O argumento não era retórico — era matemático. Usando modelos bayesianos simples, o artigo demonstrava que, em cenários comuns de pesquisa (estudos pequenos, muitas variáveis testadas, poucos achados verdadeiros), a probabilidade de um resultado “significativo” ser verdadeiro era inferior a 50%. O problema não estava nos pesquisadores — estava no sistema: incentivos que premiavam descobertas e puniam replicações, periódicos que publicavam novidades e rejeitavam confirmações, e uma cultura que tratava dados como propriedade privada em vez de bem público.
Dez anos depois, a previsão se confirmou empiricamente. Em 2015, o Open Science Collaboration tentou replicar 100 estudos publicados em três importantes periódicos de psicologia. O resultado: apenas 36% dos estudos originais produziram resultados significativos quando replicados. Os tamanhos de efeito médios caíram pela metade. A crise de reprodutibilidade não era mais uma hipótese — era um fato documentado (2).
A resposta da comunidade científica veio em múltiplas frentes: pré-registro de estudos, análises estatísticas mais rigorosas, combate ao p-hacking. Mas uma das respostas mais fundamentais foi surpreendentemente simples: tornar os dados disponíveis. Se os dados por trás de uma publicação forem acessíveis, qualquer pesquisador pode verificar os resultados, reaplicar as análises e detectar erros — exatamente como Thomas Herndon fez com a planilha de Reinhart e Rogoff.
A transparência é o antídoto para a irreplicabilidade. Quando os dados são abertos, os erros são corrigíveis, os resultados são verificáveis e a ciência avança — mesmo quando os achados originais estavam errados.
Por que publicar dados?
A publicação de dados — ou data sharing — não é apenas uma questão ética. É cada vez mais uma exigência dos principais periódicos e agências de fomento.
Princípios FAIR
Em 2016, um consórcio internacional de pesquisadores, agências de fomento e editores científicos propôs um conjunto de princípios para orientar a gestão de dados científicos. Chamados de FAIR, os princípios estabelecem que dados devem ser Findable (encontráveis), Accessible (acessíveis), Interoperable (interoperáveis) e Reusable (reutilizáveis) (3).
| Princípio | Significado | Como implementar | No nosso banco |
|---|---|---|---|
| F — Findable (Encontrável) | Os dados podem ser encontrados por humanos e máquinas | Identificador persistente (DOI), metadados ricos e indexados em repositórios | Publicar em repositório com DOI (ex: Zenodo) |
| A — Accessible (Acessível) | Os dados podem ser obtidos por quem precisa deles | Protocolo aberto (HTTP), metadados sempre acessíveis — mesmo que os dados tenham restrições de acesso | Formato CSV aberto, sem autenticação para download |
| I — Interoperable (Interoperável) | Os dados podem ser combinados com outros dados | Formato aberto (CSV, não .xlsx proprietário), vocabulário padronizado, unidades explícitas | Nomes de variáveis em inglês, unidades no dicionário, formato UTF-8 |
| R — Reusable (Reutilizável) | Os dados podem ser usados em novas análises | Licença clara (ex: CC-BY), documentação completa — incluindo o dicionário de variáveis | Dicionário completo (Cap. 7), licença definida, metodologia documentada |
Note que FAIR não significa acesso irrestrito. Dados de pacientes, por exemplo, podem exigir anonimização ou acesso controlado. O princípio “Accessible” diz que os metadados devem ser sempre acessíveis — mesmo que os dados em si exijam autorização. A transparência está na documentação, não necessariamente no acesso livre (3).
Repositórios de dados
Onde publicar? Os dados não devem ficar apenas como “material suplementar” no site do periódico (que pode mudar de URL ou desaparecer). Devem ser depositados em repositórios que garantam persistência, DOI e indexação.
| Repositório | Mantenedor | Custo | DOI | Destaque |
|---|---|---|---|---|
| Zenodo | CERN (Genebra) | Gratuito | Sim (automático) | Integração com GitHub; versões; comunidades temáticas |
| Figshare | Digital Science | Gratuito (até 5 GB) | Sim (automático) | Visualização online de dados e figuras; métricas de uso |
| Dryad | Dryad Digital Repository | Cobrado por alguns periódicos | Sim | Curadoria: os dados são revisados antes de publicar |
| OSF | Center for Open Science | Gratuito | Sim | Projetos completos: dados + código + pré-registro + artigo |
| Repositórios institucionais | Universidades | Varia | Varia | Exigência de algumas universidades para teses e dissertações |
Antes de publicar, verifique: (1) o periódico tem repositório preferencial? (2) sua universidade exige depósito institucional? (3) os dados contêm informação identificável que exija acesso controlado? A resposta a essas perguntas determina qual repositório é mais adequado.
O que publicar junto com os dados
Dados sem contexto são inúteis. Um arquivo CSV sem explicação é tão opaco quanto um artigo sem metodologia. Para que os dados sejam reutilizáveis (o R de FAIR), é preciso acompanhá-los de documentação mínima:
| Componente | Descrição | Formato sugerido |
|---|---|---|
| Arquivo de dados | O banco de dados em formato aberto (CSV, UTF-8), com nomes de variáveis padronizados | .csv (UTF-8, vírgula como separador) |
| Dicionário de variáveis | Documento descrevendo cada variável: nome, tipo, unidade, valores possíveis, regras de codificação (como no Cap. 7) | .csv ou .md ou .pdf |
| README | Arquivo de texto descrevendo o estudo, a coleta, o período, os critérios de inclusão/exclusão e a versão dos dados | README.md ou README.txt |
| Script de análise | Código (R, Python) que reproduz as análises do artigo a partir dos dados brutos — o oposto de fórmulas escondidas no Excel | .R, .py, .qmd |
| Licença | Licença que especifica como os dados podem ser usados (ex: CC-BY 4.0 — uso livre com atribuição) | LICENSE.md ou campo no repositório |
O dicionário como ato de transparência
O dicionário de variáveis — que construímos no Capítulo 7 — não é apenas uma boa prática de organização. Ele é o componente que transforma dados acessíveis em dados reutilizáveis. Sem o dicionário, um pesquisador que baixe seu CSV verá colunas como glicohemoglobina, ratio e time.ppn sem saber o que significam, em que unidade foram medidas ou qual a faixa de valores esperada (3).
O dicionário é para os dados o que a seção de Métodos é para o artigo: o elemento que permite a reprodução. As diretrizes STROBE para estudos observacionais recomendam explicitamente que os autores descrevam como cada variável foi definida e medida (4).
| Variável | Tipo de dado | Unidade | Valores | Ausentes | Observação |
|---|---|---|---|---|---|
| id | Identificador | — | 1000–1402 | Nenhum | Identificador único, não usar em análises |
| idade | Numérica contínua | anos completos | 19–92 | Nenhum | Calculada na data de inclusão; ver Cap. 4 sobre idade contínua vs. discreta |
| sexo | Categórica nominal (binária) | — | female, male | Nenhum | Sexo biológico declarado |
| colesterol | Numérica contínua | mg/dL | 78–443 | Codificados como NA | Colesterol total em jejum; dosagem laboratorial |
| glicose | Numérica contínua | mg/dL | 48–385 | Codificados como NA | Glicemia em jejum; dosagem laboratorial |
| biotipo | Categórica ordinal | — | small < medium < large | Codificados como NA | Classificação antropométrica: small, medium, large |
| sistolica | Numérica contínua | mmHg | 82–250 | Codificados como NA | Pressão arterial sistólica; esfigmomanômetro calibrado |
Note como o tipo de dado — tema central de todo este projeto — aparece no dicionário como informação essencial. Saber que biotipo é ordinal (e não nominal) muda a análise: permite frequência acumulada, mediana e testes não paramétricos de tendência. Saber que colesterol é contínua de razão permite média, DP e teste t. O tipo de dado não é óbvio pelo nome da variável — precisa ser documentado.
O ciclo completo: do dado ao artigo, do artigo ao dado
Os nove capítulos deste projeto seguiram um percurso:
| Capítulo | Tema | Pergunta central | Narrativa histórica |
|---|---|---|---|
| Cap. 1 | Dados e pesquisa | O que é um dado? O que é uma variável? | Florence Nightingale (1854) |
| Cap. 2 | Classificação de variáveis | Como classificar variáveis? (Stevens, NOIR) | S. S. Stevens (1946) |
| Cap. 3 | Dicionário de dados | Como documentar o banco de dados? | — |
| Cap. 4 | Dados numéricos | Como descrever variáveis numéricas? | Quetelet (1835) + Tukey (1977) |
| Cap. 5 | Dados categóricos | Como descrever variáveis categóricas? | John Graunt (1662) |
| Cap. 6 | Casos especiais | O que fazer quando a classificação não é clara? | Rensis Likert (1932) |
| Cap. 7 | Organização em planilhas | Como organizar dados para que sejam analisáveis? | Reinhart-Rogoff (2010/2013) |
| Cap. 8 | Visualização por tipo | Qual gráfico para qual tipo de dado? | — |
| Cap. 9 | Publicação e dados abertos | Como tornar os dados disponíveis para a comunidade? | Ioannidis (2005) + OSC (2015) |
O fio condutor é o tipo de dado: como classificá-lo, como descrevê-lo, como visualizá-lo e, finalmente, como documentá-lo para que outros possam fazer o mesmo. A publicação de dados abertos — com dicionário, licença e código reproduzível — é o último passo desse ciclo, mas também o primeiro de um novo: o ciclo em que outros pesquisadores usam seus dados para fazer ciência que você não imaginou.
Se a maioria dos achados publicados é provavelmente falsa, a solução não é publicar menos — é publicar melhor. Dados abertos, análises reproduzíveis e documentação transparente não eliminam o erro, mas o tornam detectável e corrigível. A ciência não avança por ser perfeita — avança por ser autocorrigível.
Resumo do capítulo
| Conceito | Definição | Ação prática |
|---|---|---|
| Crise de reprodutibilidade | Muitos resultados publicados não se replicam — dados abertos são parte da solução | Tornar dados disponíveis para verificação e replicação |
| Princípios FAIR | Findable, Accessible, Interoperable, Reusable — o padrão internacional para dados científicos | Seguir os quatro princípios ao preparar dados para publicação |
| Repositórios de dados | Zenodo, Figshare, Dryad, OSF — garantem DOI, persistência e indexação | Depositar dados em repositório com DOI antes de submeter o artigo |
| Dicionário de variáveis | O documento que transforma um CSV opaco em dados reutilizáveis | Incluir tipo de dado, unidade, valores possíveis e regras de codificação |
| Pacote mínimo de publicação | Dados (CSV) + dicionário + README + script de análise + licença | Preparar todos os componentes antes da submissão ao periódico |
| Tipo de dado no dicionário | Especificar se a variável é numérica/categórica, discreta/contínua, nominal/ordinal — informação essencial para reutilização | Documentar o tipo de dado para cada variável — o tema central deste projeto |
Este capítulo encerra o projeto — mas o tema não se encerra aqui. Cada artigo que você publicar, cada banco de dados que compartilhar, cada tabela descritiva que montar, começará pela mesma pergunta: que tipo de dado é este? A resposta a essa pergunta determina como descrever, como visualizar, como analisar e como documentar. É o primeiro passo — e o mais importante.