Publicando seus Dados

Dados abertos, princípios FAIR e a crise de reprodutibilidade

A história

Em 2005, um epidemiologista grego radicado nos Estados Unidos publicou um artigo com um título provocativo: Why Most Published Research Findings Are False. O artigo, publicado na PLOS Medicine, tornou-se o mais acessado da história da revista — e um dos mais citados da ciência moderna. A tese era perturbadora: combinando vieses de publicação, tamanhos amostrais pequenos, flexibilidade na análise e pressão por resultados positivos, a maioria dos achados publicados em periódicos científicos era provavelmente falsa (1).

O argumento não era retórico — era matemático. Usando modelos bayesianos simples, o artigo demonstrava que, em cenários comuns de pesquisa (estudos pequenos, muitas variáveis testadas, poucos achados verdadeiros), a probabilidade de um resultado “significativo” ser verdadeiro era inferior a 50%. O problema não estava nos pesquisadores — estava no sistema: incentivos que premiavam descobertas e puniam replicações, periódicos que publicavam novidades e rejeitavam confirmações, e uma cultura que tratava dados como propriedade privada em vez de bem público.

Dez anos depois, a previsão se confirmou empiricamente. Em 2015, o Open Science Collaboration tentou replicar 100 estudos publicados em três importantes periódicos de psicologia. O resultado: apenas 36% dos estudos originais produziram resultados significativos quando replicados. Os tamanhos de efeito médios caíram pela metade. A crise de reprodutibilidade não era mais uma hipótese — era um fato documentado (2).

A resposta da comunidade científica veio em múltiplas frentes: pré-registro de estudos, análises estatísticas mais rigorosas, combate ao p-hacking. Mas uma das respostas mais fundamentais foi surpreendentemente simples: tornar os dados disponíveis. Se os dados por trás de uma publicação forem acessíveis, qualquer pesquisador pode verificar os resultados, reaplicar as análises e detectar erros — exatamente como Thomas Herndon fez com a planilha de Reinhart e Rogoff.

A lição de Ioannidis

A transparência é o antídoto para a irreplicabilidade. Quando os dados são abertos, os erros são corrigíveis, os resultados são verificáveis e a ciência avança — mesmo quando os achados originais estavam errados.

Por que publicar dados?

A publicação de dados — ou data sharing — não é apenas uma questão ética. É cada vez mais uma exigência dos principais periódicos e agências de fomento.

Tabela 1: Por que publicar dados — razões científicas, éticas e práticas.

Razão	Descrição
Reprodutibilidade	Outros pesquisadores podem reaplicar suas análises e confirmar (ou corrigir) seus resultados
Verificação	Erros como o de Reinhart-Rogoff podem ser identificados e corrigidos — a ciência se autocorrige
Reutilização	Seus dados podem ser combinados com outros em meta-análises ou usados para responder perguntas que você não fez
Exigência editorial	Periódicos como PLOS ONE, Nature, BMJ e The Lancet exigem ou incentivam dados abertos como condição de publicação
Citação	Dados publicados em repositórios recebem DOI e podem ser citados como uma publicação independente
Transparência ética	Pesquisa financiada com dinheiro público gera dados que pertencem à sociedade — não ao pesquisador

Princípios FAIR

Em 2016, um consórcio internacional de pesquisadores, agências de fomento e editores científicos propôs um conjunto de princípios para orientar a gestão de dados científicos. Chamados de FAIR, os princípios estabelecem que dados devem ser Findable (encontráveis), Accessible (acessíveis), Interoperable (interoperáveis) e Reusable (reutilizáveis) (3).

Tabela 2: Os princípios FAIR — o que cada letra significa na prática.

Princípio	Significado	Como implementar	No nosso banco
F — Findable (Encontrável)	Os dados podem ser encontrados por humanos e máquinas	Identificador persistente (DOI), metadados ricos e indexados em repositórios	Publicar em repositório com DOI (ex: Zenodo)
A — Accessible (Acessível)	Os dados podem ser obtidos por quem precisa deles	Protocolo aberto (HTTP), metadados sempre acessíveis — mesmo que os dados tenham restrições de acesso	Formato CSV aberto, sem autenticação para download
I — Interoperable (Interoperável)	Os dados podem ser combinados com outros dados	Formato aberto (CSV, não .xlsx proprietário), vocabulário padronizado, unidades explícitas	Nomes de variáveis em inglês, unidades no dicionário, formato UTF-8
R — Reusable (Reutilizável)	Os dados podem ser usados em novas análises	Licença clara (ex: CC-BY), documentação completa — incluindo o dicionário de variáveis	Dicionário completo (Cap. 7), licença definida, metodologia documentada

Note que FAIR não significa acesso irrestrito. Dados de pacientes, por exemplo, podem exigir anonimização ou acesso controlado. O princípio “Accessible” diz que os metadados devem ser sempre acessíveis — mesmo que os dados em si exijam autorização. A transparência está na documentação, não necessariamente no acesso livre (3).

Repositórios de dados

Onde publicar? Os dados não devem ficar apenas como “material suplementar” no site do periódico (que pode mudar de URL ou desaparecer). Devem ser depositados em repositórios que garantam persistência, DOI e indexação.

Tabela 3: Principais repositórios para publicação de dados científicos.

Repositório	Mantenedor	Custo	DOI	Destaque
Zenodo	CERN (Genebra)	Gratuito	Sim (automático)	Integração com GitHub; versões; comunidades temáticas
Figshare	Digital Science	Gratuito (até 5 GB)	Sim (automático)	Visualização online de dados e figuras; métricas de uso
Dryad	Dryad Digital Repository	Cobrado por alguns periódicos	Sim	Curadoria: os dados são revisados antes de publicar
OSF	Center for Open Science	Gratuito	Sim	Projetos completos: dados + código + pré-registro + artigo
Repositórios institucionais	Universidades	Varia	Varia	Exigência de algumas universidades para teses e dissertações

A escolha do repositório importa

Antes de publicar, verifique: (1) o periódico tem repositório preferencial? (2) sua universidade exige depósito institucional? (3) os dados contêm informação identificável que exija acesso controlado? A resposta a essas perguntas determina qual repositório é mais adequado.

O que publicar junto com os dados

Dados sem contexto são inúteis. Um arquivo CSV sem explicação é tão opaco quanto um artigo sem metodologia. Para que os dados sejam reutilizáveis (o R de FAIR), é preciso acompanhá-los de documentação mínima:

Tabela 4: O pacote mínimo para publicação de dados — o que acompanha o CSV.

Componente	Descrição	Formato sugerido
Arquivo de dados	O banco de dados em formato aberto (CSV, UTF-8), com nomes de variáveis padronizados	.csv (UTF-8, vírgula como separador)
Dicionário de variáveis	Documento descrevendo cada variável: nome, tipo, unidade, valores possíveis, regras de codificação (como no Cap. 7)	.csv ou .md ou .pdf
README	Arquivo de texto descrevendo o estudo, a coleta, o período, os critérios de inclusão/exclusão e a versão dos dados	README.md ou README.txt
Script de análise	Código (R, Python) que reproduz as análises do artigo a partir dos dados brutos — o oposto de fórmulas escondidas no Excel	.R, .py, .qmd
Licença	Licença que especifica como os dados podem ser usados (ex: CC-BY 4.0 — uso livre com atribuição)	LICENSE.md ou campo no repositório

O dicionário como ato de transparência

O dicionário de variáveis — que construímos no Capítulo 7 — não é apenas uma boa prática de organização. Ele é o componente que transforma dados acessíveis em dados reutilizáveis. Sem o dicionário, um pesquisador que baixe seu CSV verá colunas como glicohemoglobina, ratio e time.ppn sem saber o que significam, em que unidade foram medidas ou qual a faixa de valores esperada (3).

O dicionário é para os dados o que a seção de Métodos é para o artigo: o elemento que permite a reprodução. As diretrizes STROBE para estudos observacionais recomendam explicitamente que os autores descrevam como cada variável foi definida e medida (4).

Tabela 5: Exemplo de dicionário publicável — cada variável documentada para reutilização.

Variável	Tipo de dado	Unidade	Valores	Ausentes	Observação
id	Identificador	—	1000–1402	Nenhum	Identificador único, não usar em análises
idade	Numérica contínua	anos completos	19–92	Nenhum	Calculada na data de inclusão; ver Cap. 4 sobre idade contínua vs. discreta
sexo	Categórica nominal (binária)	—	female, male	Nenhum	Sexo biológico declarado
colesterol	Numérica contínua	mg/dL	78–443	Codificados como NA	Colesterol total em jejum; dosagem laboratorial
glicose	Numérica contínua	mg/dL	48–385	Codificados como NA	Glicemia em jejum; dosagem laboratorial
biotipo	Categórica ordinal	—	small < medium < large	Codificados como NA	Classificação antropométrica: small, medium, large
sistolica	Numérica contínua	mmHg	82–250	Codificados como NA	Pressão arterial sistólica; esfigmomanômetro calibrado

Note como o tipo de dado — tema central de todo este projeto — aparece no dicionário como informação essencial. Saber que biotipo é ordinal (e não nominal) muda a análise: permite frequência acumulada, mediana e testes não paramétricos de tendência. Saber que colesterol é contínua de razão permite média, DP e teste t. O tipo de dado não é óbvio pelo nome da variável — precisa ser documentado.

O ciclo completo: do dado ao artigo, do artigo ao dado

Os nove capítulos deste projeto seguiram um percurso:

Tabela 6: O percurso completo — de Nightingale à publicação aberta.

Capítulo	Tema	Pergunta central	Narrativa histórica
Cap. 1	Dados e pesquisa	O que é um dado? O que é uma variável?	Florence Nightingale (1854)
Cap. 2	Classificação de variáveis	Como classificar variáveis? (Stevens, NOIR)	S. S. Stevens (1946)
Cap. 3	Dicionário de dados	Como documentar o banco de dados?	—
Cap. 4	Dados numéricos	Como descrever variáveis numéricas?	Quetelet (1835) + Tukey (1977)
Cap. 5	Dados categóricos	Como descrever variáveis categóricas?	John Graunt (1662)
Cap. 6	Casos especiais	O que fazer quando a classificação não é clara?	Rensis Likert (1932)
Cap. 7	Organização em planilhas	Como organizar dados para que sejam analisáveis?	Reinhart-Rogoff (2010/2013)
Cap. 8	Visualização por tipo	Qual gráfico para qual tipo de dado?	—
Cap. 9	Publicação e dados abertos	Como tornar os dados disponíveis para a comunidade?	Ioannidis (2005) + OSC (2015)

O fio condutor é o tipo de dado: como classificá-lo, como descrevê-lo, como visualizá-lo e, finalmente, como documentá-lo para que outros possam fazer o mesmo. A publicação de dados abertos — com dicionário, licença e código reproduzível — é o último passo desse ciclo, mas também o primeiro de um novo: o ciclo em que outros pesquisadores usam seus dados para fazer ciência que você não imaginou.

O paradoxo de Ioannidis

Se a maioria dos achados publicados é provavelmente falsa, a solução não é publicar menos — é publicar melhor. Dados abertos, análises reproduzíveis e documentação transparente não eliminam o erro, mas o tornam detectável e corrigível. A ciência não avança por ser perfeita — avança por ser autocorrigível.

Resumo do capítulo

Tabela 7: Resumo — publicação de dados e ciência aberta.

Conceito	Definição	Ação prática
Crise de reprodutibilidade	Muitos resultados publicados não se replicam — dados abertos são parte da solução	Tornar dados disponíveis para verificação e replicação
Princípios FAIR	Findable, Accessible, Interoperable, Reusable — o padrão internacional para dados científicos	Seguir os quatro princípios ao preparar dados para publicação
Repositórios de dados	Zenodo, Figshare, Dryad, OSF — garantem DOI, persistência e indexação	Depositar dados em repositório com DOI antes de submeter o artigo
Dicionário de variáveis	O documento que transforma um CSV opaco em dados reutilizáveis	Incluir tipo de dado, unidade, valores possíveis e regras de codificação
Pacote mínimo de publicação	Dados (CSV) + dicionário + README + script de análise + licença	Preparar todos os componentes antes da submissão ao periódico
Tipo de dado no dicionário	Especificar se a variável é numérica/categórica, discreta/contínua, nominal/ordinal — informação essencial para reutilização	Documentar o tipo de dado para cada variável — o tema central deste projeto

Fechando o ciclo

Este capítulo encerra o projeto — mas o tema não se encerra aqui. Cada artigo que você publicar, cada banco de dados que compartilhar, cada tabela descritiva que montar, começará pela mesma pergunta: que tipo de dado é este? A resposta a essa pergunta determina como descrever, como visualizar, como analisar e como documentar. É o primeiro passo — e o mais importante.

Referências

Ioannidis JPA. Why Most Published Research Findings Are False. PLOS Medicine. 2005;2(8):e124.

Open Science Collaboration. Estimating the Reproducibility of Psychological Science. Science. 2015;349(6251):aac4716.

Wilkinson MD, Dumontier M, Aalbersberg IjJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for Scientific Data Management and Stewardship. Scientific Data. 2016;3:160018.

von Elm E, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) Statement: Guidelines for Reporting Observational Studies. The Lancet. 2007;370(9596):1453–7.