2 Introdução
Esse manual foi desenvolvido para ser usado em cursos introdutórios de estatística e análise de dados na área de saúde que utilizem o R e o RStudio como ambiente de programação.
Faz parte de um projeto de incentivo à utilização da linguagem R e do ambiente RStudio como ferramentas nas aulas de estatística em cursos das áreas de saúde, tendo sido desenvolvido com o propósito de auxiliar o aprendizado e o uso desses softwares por estudantes sem nenhuma formação em ciência da computação ou linguagens de programação.
Não se pretende fazer uma imersão profunda na linguagem R e de todas suas potencialidades, pelo contrário, o que esse manual almeja é fazer uma introdução à linguagem R de forma simples e, na medida do possível, agradável, sem sobrecarregar o estudante.
Também não se pretende aqui discutir ou analisar fórmulas estatísticas, mas sim desenvolver os conceitos básicos da análise descritiva e inferencial com o uso da linguagem R.
Esse é um trabalho em construção, ainda em um estágio inicial, sugestões e correções são muito bem vindas.
2.1 R - Uma linguagem para análise de dados e gráficos
R é um sistema para computação estatística e gráficos. Consiste em uma linguagem mais um ambiente de execução com gráficos, um depurador, acesso a determinadas funções do sistema e a capacidade de executar programas armazenados em arquivos de script (Hornik 2017).
Aprender uma linguagem computacional de estatística pode parecer inicialmente assustador para alunos de graduação da área da saúde. Entretanto, estamos aprendendo novas línguas a todo momento e uma linguagem computacional nada mais é do que uma nova língua.
Todo ramo da ciência tem sua língua própria, muitas vezes incompreensível para quem não foi iniciado naquela disciplina. A medicina tem seu próprio vocabulário, com inúmeros termos obscuros até mesmo para médicos de especialidades diferentes. Todos os ramos do conhecimento têm seu próprio vocabulário e seu modo próprio de fazer a comunicação da informação. A linguagem de sinais tem em seus gestos a forma de expressar a linguagem, a música tem uma notação gráfica para expressar toda suas notas, melodias, ritmos. Até mesmo jogos tem uma linguagem própria. O xadrez tem vários sistemas de notação para expressar os movimentos do jogo.
Não apenas os ramos da ciência têm sua língua, mas também cada equipamento, cada máquina, seja um carro, um microondas, um computador ou um smartphone, tem também sua própria linguagem. Cada aparelho só compreende aquilo que foi projetado para compreender. Uma torradeira só sabe esquentar e a forma de comunicarmos a ela o momento de fazer isso é apertando um botão. Um microondas é capaz de se aquecer de várias formas, dependendo da informação que é inserida em seu painel. Um smartphone consegue fazer uma infinidade de procedimentos, todos dependentes das informação que é inserida na tela pelo seu proprietário. Quanto mais sofisticado um equipamento, mais funções ele pode realizar, maior vocabulário necessário para essa interação.
Mas, então, como pode alguém sem nenhuma formação em engenharia ou computação, conseguir fazer um equipamento tão sofisticado como um smartphone encontrar a localização de uma cidade, mostrar na tela a imagem de uma rua da cidade, traçar uma rota de sua posição até esse local? Conseguimos isso porque a forma como os seres humanos se comunicam com os equipamentos evoluiu de forma impressionante no último século. Há alguns poucos anos era preciso aprender um código morse para transmitir uma informação pelo telégrafo, hoje com um conhecimento muito mais simples podemos nos comunicar com todo o planeta através da internet num smartphone. Da mesma forma, as linguagem computacionais evoluíram substancialmente desde sua criação. As primeiras linguagens de programação eram tão obscuras que só apenas umas poucos iniciados eram capazes de usar um computador. Mas cada ano surgem novas linguagens, cada vez mais simples de serem usadas. Atualmente, até mesmo crianças se tornam exímias programadoras. As linguagens computacionais modernas permitem a comunicação entre um ser humano e um computador de uma forma que cada vez mais simples. E a linguagem R é justamente a ponte entre a linguagem da estatística e a linguagem humana. O R foi criado para ser justamente uma uma linguagem para análise de dados e produção de gráficos (R. Ihaka and Gentleman 1996). A linguagem R tornou possível executarmos complexos cálculos matemáticos de forma fácil e rápida e criarmos gráficos complexos com simples comandos.
2.2 R para Análise Exploratória de dados
A Análise Exploratória de Dados (EDA - Exploratory Data Analysis) é uma etapa inicial crítica no processo de análise de dados que ajuda a descobrir padrões, tendências e anomalias nos conjuntos de dados, através do uso sistemático de várias técnicas de visualização e estatísticas descritivas. John W. Tukey, o pioneiro da Análise Exploratória de Dados (EDA), desempenhou um papel significativo ao enfatizar a importância da EDA no campo da estatística e análise de dados. Tukey defendia uma exploração mais intuitiva e flexível, em vez de simplesmente confiar em um conjunto predeterminado de suposições e modelos. Em seu livro “Exploratory Data Analysis”, Tukey enfatizou a importância de “aprender com os dados” e considerar vários aspectos dos dados para formar um entendimento abrangente(Tukey et al. 1977).
Tukey também destacou a importância da visualização e das técnicas gráficas em EDA, mostrando o valor de usar representações visuais para descobrir padrões, tendências e relacionamentos que podem não ser facilmente discerníveis por meio de métodos estatísticos tradicionais. Nesse sentido, a EDA permite que os pesquisadores interajam com os dados de forma mais direta, fomentando a curiosidade e promovendo uma investigação mais aprofundada. Uma exploração mais flexível e aberta, pode levar a novos insights e descobertas inesperadas e gerar novas questões e hipóteses a serem analisadas.
A linguagem R emergiu como uma escolha popular para EDA devido à sua versatilidade, biblioteca abrangente de pacotes e forte suporte da comunidade. Aproveitando os recursos do R e os pacotes do tidyverse, é possível realizar um EDA eficaz e estabelecer uma base sólida para análises subsequentes, levando a uma melhor tomada de decisão e insights.
De acordo com Hadley Wickham,
Não há regra sobre quais perguntas você deve fazer para orientar sua pesquisa. No entanto, dois tipos de perguntas sempre serão úteis para fazer descobertas em seus dados. Que tipo de variação ocorre dentro de minhas variáveis? Que tipo de covariação ocorre entre minhas variáveis?
Hadley Wickham, R for Data Science.
2.3 A importância da Estatística na Medicina
A estatística é uma das áreas fundamentais das ciências da saúde. Em um dos primeiros artigos sobre o ensino da estatística para estudantes de medicina, num editorial do British Medical Journal de 1937, Bradford Hill já salientava que para poder ler de forma crítica a literatura científica o médico precisava dominar os conceitos estatísticos (Hill 1937). Entretanto, o ensino da estatística só se tornou compulsório nas escolas médicas de Londres a partir de 1975 e em muitos países europeus apenas dez anos mais tarde (Altman and Bland 1991). Nas últimas duas décadas a Organização Mundial de Saúde tem buscado estratégias para melhorar o ensino da estatística para os profissionais de saúde, tendo em vista que essas habilidades são úteis não apenas para aqueles que desejam se tornar pesquisadores, mas para todos que trabalham com a saúde, pois favorecem o pensamento crítico, lógico e científico, facilitando os processos de tomada de decisão, de análise de riscos e de avaliação das evidências científicas (Lwanga, Tye, and Ayeni 1999). A falta do conhecimento estatístico coloca em risco todo o projeto de uma prática baseada em evidências, cujo ponto fundamental é justamente a capacidade de uma leitura crítica da literatura científica (Sackett and Rosenberg 1995).
A importância desse conhecimento se torna ainda mais relevante quando levamos em conta a imensa quantidade de erros estatísticos básicos na literatura médica (Altman and Bland 1991) e baixa qualidade da literatura científica que, infelizmente, é muito menos confiável do que nossa intuição imagina. Em um dos artigos mais citados de 2005, Ioannidis alerta que cerca de metade dos resultados da literatura científica médica não são verdadeiros (Ioannidis 2005) e, mais recentemente, que a maioria dos estudos clínicos não são úteis (Ioannidis 2016). Ou seja, não apenas a maioria dos resultados são falsos, como a maioria dos resultados verdadeiros não são úteis (Ioannidis 2016). O médico, consumidor principal dessa literatura, precisa mais do que nunca saber analisar de forma crítica esses artigos e, para tanto, a formação sólida em métodos estatísticos é de suma importância.
Entretanto, existem barreiras reais ao ensino da estatística para estudantes das áreas da saúde. A mera menção da palavra “estatística” é suficiente para evocar fortes reações emocionais de rejeição na maioria das pessoas (Hill 1947). Estudantes de medicina muitas vezes preferem evitar disciplinas com conteúdo matemático e, via de regra, os cursos de estatística ou bioestatística não são muito populares entre esses alunos (Altman and Bland 1991). Além disso, alunos das áreas de saúde usualmente tem dificuldade em perceber a importância dessa disciplina, não veem razão para estudar metodologia da pesquisa científica e não se sentem motivados para aprender os difíceis conceitos matemáticos fundamentais (Altman and Bland 1991; Clarke, Clayton, and Donaldson 1980). Essas barreiras podem comprometer seriamente o aprendizado da estatística pelos estudantes de medicina e, como resultado disso, fazer com que muitos médicos sejam incapazes de uma leitura crítica da literatura científica.
A performance do aprendizado de um estudante está diretamente relacionada a diversos fatores, tais como o seu grau de engajamento, ao prazer em estudar o conteúdo, ao seu sentimento de confiança na capacidade de aprender, a sua determinação para aprender. Assim, devem ser buscados mecanismos que possibilitem aumentar esses fatores. Um desses fatores é o uso de softwares estatísticos adequados. O uso de um software em cursos introdutórios de estatística deve levar em consideração uma série de fatores: disponibilidade, custo, facilidade de uso, possibilidade de geração de gráficos e imagens, facilidade de acesso a literatura sobre o software, documentação do software, disponibilidades de pacotes auxiliares, utilidade futura do software na vida acadêmica.
A linguagem estatística R associada à interface do RStudio preenchem da melhor forma possível os requisitos necessários para essa função.
2.4 Breve História do R
A origem do R remonta à Linguagem S, desenvolvida por John Chambers em 1976 nos laboratórios da AT&T Bell Labs. No início da década de 1990, a linguagem S foi aprimorada com uma notação para modelos estatísticos, o que resultou em uma significativa economia de esforço de programação para a análise estatística de dados. No final da década de 1990, o S foi revisado e transformado em uma linguagem de alto padrão, totalmente baseada em programação orientada a objetos. Esta versão revisada da linguagem S foi o ponto de partida para o desenvolvimento do R.
A linguagem R foi criada em 1993 por Robert Gentleman e Ross Ihaka, na Universidade de Auckland, na Nova Zelândia. Inicialmente, o R foi desenvolvido como uma ferramenta para o ensino em cursos introdutórios de estatística ministrados por esses professores(Ross Ihaka 1998).
O R é o resultado de uma colaboração entre estatísticos, visando criar um ambiente computacional poderoso, programável, portátil e aberto. Este ambiente é adequado para resolver problemas complexos e sofisticados, bem como para realizar análises rotineiras, sem restrições de acesso ou uso. O R é executável em diversos sistemas operacionais, incluindo macOS, Windows e Linux.
O R é uma linguagem de código aberto e livre, publicada sob a licença pública GNU e mantida pela R Foundation. Sua estrutura de código aberto e software gratuito atraiu um grande número de desenvolvedores ao longo dos anos. Este modelo colaborativo de desenvolvimento permitiu que o R crescesse rapidamente em termos de funcionalidades e popularidade, tornando-se uma das principais ferramentas para análise de dados e estatísticas em todo o mundo.
Além disso, o R é altamente extensível, com milhares de pacotes disponíveis que expandem suas capacidades para praticamente qualquer tipo de análise de dados. Esses pacotes são armazenados e distribuídos através do Comprehensive R Archive Network (CRAN), o repositório oficial de pacotes do R.
O sucesso do R também se deve à sua capacidade de criar visualizações de dados de alta qualidade. Com pacotes como o ggplot2, os usuários podem gerar visualizações complexas e esteticamente agradáveis com apenas algumas linhas de código.
A popularidade do R continua a crescer, especialmente entre cientistas de dados e estatísticos. Sua capacidade de lidar com grandes conjuntos de dados, a comunidade ativa e os abundantes recursos de aprendizado são alguns dos motivos pelos quais o R é uma escolha popular para análise de dados estatísticos.
2.5 CRAN (Comprehensive R Archive Network)
O CRAN (Comprehensive R Archive Network) é um repositório central onde qualquer pessoa pode contribuir com extensões para o R, conhecidas como “pacotes” (packages), desde que atendam aos requisitos de qualidade e licenciamento estabelecidos pelos mantenedores do CRAN (Hornik 2012). Em janeiro de 2017, graças à comunidade extremamente ativa de desenvolvedores que contribuem para o R diariamente, o CRAN já tinha atingido a marca de 10.000 pacotes disponíveis para download (Smith 2008). Em maio de 2024, esse número já ultrapassava 20.000 pacotes.
O CRAN não apenas armazena pacotes, mas também fornece documentação extensa e exemplos de uso, facilitando a aprendizagem e implementação das ferramentas. Os pacotes no CRAN são frequentemente atualizados para incluir novas funcionalidades, corrigir bugs e melhorar a eficiência, refletindo o rápido progresso na comunidade de desenvolvedores do R. A comunidade de desenvolvedores e usuários do R é vibrante e colaborativa, com inúmeros fóruns, blogs e conferências dedicados à troca de conhecimentos e melhores práticas.
Esses pacotes são fundamentais para a força e a versatilidade do R. Entre os milhares de pacotes disponíveis, alguns dos mais famosos foram desenvolvidos por Hadley Wickham. Eles desempenharam um papel crucial no aumento da popularidade do R nos últimos anos. O conjunto de pacotes desenvolvidos por Wickham se tornou tão importante e abrangente que foram reunidos em um grande pacote chamado tidyverse
, uma analogia ao termo universo, que sugere um universo organizado de ferramentas para análise de dados.
O tidyverse
inclui pacotes essenciais como ggplot2
para visualização de dados, dplyr
para manipulação de dados, tidyr
para arrumação de dados, entre outros. Estes pacotes foram desenvolvidos com a filosofia de tornar a programação e a análise de dados no R mais simples, intuitiva e eficiente.
Este livro se baseia principalmente nos pacotes do tidyverse
, que facilitam a programação e as análises no R. Ao utilizar o tidyverse
, os usuários podem realizar tarefas complexas com menos esforço e maior clareza, aproveitando a consistência e integração entre os pacotes.
O crescimento exponencial do CRAN e a influência de pacotes como o tidyverse
ilustram como a comunidade do R continua a expandir e inovar, consolidando o R como uma das principais linguagens para análise de dados e estatísticas.
2.6 Bioconductor
Além do CRAN, diversos pacotes específicos para análise de gens e biologia molecular, são mantidos e distribuidos por um projeto chamado Bioconductor
, totalmente desenvolvido com base na liguagem R (Tippmann 2015). Bioconductor
é um projeto de software de código aberto para a análise genômica e biologia molecular, feito com a contrição de uma comunidade grande e diversificada de cientistas (Huber et al. 2015).Em junho de 2024 o Bioconductor já tinha cerca de 2300 pacotes.
Popularidade do R
O R tem se tornado cada vez mais popular na pesquisa científica. Em 2009, o jornal New York Times publicou uma reportagem destacando a crescente popularidade do R entre os cientistas. Segundo o New York Times, o R tem se tornado a segunda língua dos pesquisadores. Em uma pesquisa realizada em 2015 pela Rexer Analytics Survey, o R foi o software mais utilizado entre os 1.220 cientistas avaliados (Rexer, Gearan, and Allen 2015).
A popularidade do R tem crescido ininterruptamente, especialmente nos últimos anos (Robinson 2017). Atualmente, o R é um dos principais softwares estatísticos utilizados em pesquisas acadêmicas, particularmente na área médica, onde é “a ferramenta de escolha para muitos métodos estatísticos necessários nos estudos clínicos” (Robinson 2017). No Canadá, cerca de metade das universidades tem pelo menos um curso que utiliza a linguagem R (Carson and Basiliko 2016). O R também é reconhecido como o principal repositório de funções estatísticas validadas (Smith 2008).
Conforme destacado por um especialista: “R has really become the second language for people coming out of grad school now, and there’s an amazing amount of code being written for it” (Vance 2009).
Nos últimos anos, o uso do R como ferramenta em aulas de estatística cresceu substancialmente. Diversos pacotes específicos foram desenvolvidos para uso educacional, como o mosaic, TeachingDemos, simpleR e uwIntroStats. Além disso, foram lançados diversos livros didáticos introdutórios baseados no uso do R, incluindo “Introductory Statistics with R”, “Discovering Statistics Using R”, “Learn Statistics Using R”, “An R Introduction to Statistics”, “Introduction to Probability and Statistics Using R”, “OpenIntro Statistics” e muitos outros manuais disponíveis gratuitamente na internet. Em 2014, durante o New England Statistics Symposium, foi lançado o site StatsTeachR, um repositório de módulos de ensino de estatística usando o R, acessível gratuitamente.
O R possui uma rica documentação e uma vasta quantidade de tutoriais gratuitos disponíveis online (Piboonrungroj 2012). A comunidade de usuários e desenvolvedores do R é grande e está em constante crescimento, proporcionando um suporte valioso para novos usuários. Estudos recentes têm mostrado que o uso do R tem crescido exponencialmente nas últimas décadas, sendo atualmente o software estatístico com a maior projeção de crescimento no futuro.
Além disso, a linguagem R continua a se adaptar e inovar, incorporando novos pacotes e funcionalidades que atendem às demandas emergentes em diversas áreas de pesquisa e indústria. Muitas instituições acadêmicas e organizações de pesquisa têm adotado o R como sua ferramenta principal para análise de dados, contribuindo para sua disseminação e evolução contínua.
Com todas essas vantagens, o R solidifica sua posição como uma ferramenta indispensável para cientistas de dados, estatísticos e pesquisadores em todo o mundo.
2.7 RStudio
RStudio é um Ambiente de Desenvolvimento Integrado (IDE - Integrated Development Environment) projetado especificamente para a linguagem estatística R, mas que atualmente suporta também python e outras linguagens. Um IDE é um software que oferece um conjunto de ferramentas que facilitam e aprimoram o processo de desenvolvimento, tornando o trabalho com R muito mais eficiente e produtivo.
Lançado ao público em 2011, o RStudio rapidamente se tornou uma das ferramentas preferidas para programação em R, devido à sua interface amigável e rica em funcionalidades. O RStudio oferece um ambiente unificado para escrita de código, execução de scripts, visualização de gráficos e gerenciamento de pacotes, entre outras funcionalidades.
2.7.1 Funcionalidades do RStudio:
- Editor de Código Avançado: Com destaque de sintaxe, autocompletar e suporte a múltiplas linguagens.
- Console Interativo: Permite a execução de comandos R em tempo real.
- Visualização de Gráficos: Ferramentas integradas para visualização e exportação de gráficos.
- Gerenciamento de Pacotes: Instalação, atualização e carregamento de pacotes diretamente do IDE.
- Painéis de Ajuda e Documentação: Acesso rápido à documentação e ajuda sobre funções e pacotes.
- Integração com Versionamento: Suporte integrado para Git e outros sistemas de controle de versão.
O RStudio é amplamente utilizado por organizações de renome mundial, incluindo NASA, Eli Lilly, AstraZeneca, Samsung, Honda, Hyundai, Walmart, Nestlé, General Electric, Santander, Universidade de Oxford, Universidade de Toronto e muitas outras instituições. Essas organizações confiam no RStudio para suas análises estatísticas e visualizações de dados devido à sua robustez e facilidade de uso.
A versão gratuita do RStudio é perfeitamente adequada para uso acadêmico e pessoal, eliminando a necessidade de softwares pagos caros. Para usuários que necessitam de funcionalidades adicionais, como suporte avançado para servidores e integração com plataformas empresariais, a RStudio PBC oferece versões comerciais com recursos ampliados.
2.7.2 Por que escolher o RStudio?
- Interface Intuitiva: Design simplificado que facilita a navegação e uso eficiente do R.
- Ferramentas Integradas: Todas as ferramentas necessárias para desenvolvimento, análise e visualização em um único lugar.
- Comunidade Ativa: Grande comunidade de usuários e desenvolvedores que compartilham recursos, tutoriais e suporte.
- Atualizações Constantes: Lançamentos regulares com novas funcionalidades e melhorias de desempenho.
O RStudio é, sem dúvida, uma ferramenta essencial para qualquer pessoa que trabalhe com a linguagem R, seja em ambientes acadêmicos, de pesquisa ou industriais. Seu impacto no campo da análise de dados é significativo, proporcionando uma plataforma robusta e acessível para todos os níveis de usuários.
2.8 Leituras complementares sobre a linguagem R
Para quem desejar aprofundar o aprendizado do R, segue abaixo uma lista de livros, sites e cursos sobre a linguagem R:
2.8.1 Livros sobre progamação em R
- The R Book, de Michael J. Crawley. Publicado pela Editora Willey (2º ed, 2013.)
- R for Everyone. Advanced Analytics and Graphics, de Jared P. Lander. Publicado pela Editora Pearson (2014).
- Biostatistics with R. An Introduction to Statistics Through Biological Data, de Babak Shahbaba. Publicado pela editora Springer (2012).
- Introduction to Probability and Statistics Using R, de G. Jay Kerns. Disponível no site do CRAN no link: https://cran.r-project.org/web/packages/IPSUR/vignettes/IPSUR.pdf
- An Introduction to Statistical and Data Sciences via R, de Chester Ismay e Albert Y. Kim. Online book. (2018). https://moderndive.com.
- A Beginner’s Guide to R, de Alain F. Zuur, Elena N. Ieno e Erik H. W. G. Meesters. Publicado pela Editora Springer (2009).
- The Art of R Programming. A tour of Statistical Software Design, de Norman Matloff. Publicado pela Editora no Starch Press (2011).
- R for Data Science. Import, tidy, transform, visualize and model data, de Hadley Wickham e Garret Grolemund. Publicado pela Editora O’Reilly (2016). Disponível online em: https://r4ds.had.co.nz.
- Data Analysis for the Life Sciences with R, de Rafael A Irizarry and Michael I Love. Ebook gratuito no site leanpub: https://leanpub.com/dataanalysisforthelifesciences
- Hands-On Programming with R, de Garrett Grolemund, publicado pela editora O’Reilly (2014).
- Introductory Statistics with R, de Peter Dalgaard. Publicado pela Editora Springer (2º ed, 2008).
- Advanced R, de Hadley Wickham. Publicado pela Editora Chapman and Hall/CRC (2ª ed, 2019). Disponível online em: adv-r.hadley.nz
- Efficient R Programming, de Colin Gillespie e Robin Lovelace. Publicado pela Editora O’Reilly (2016). Disponível online em: efficientr.programming
2.8.2 livros sobre a gráficos no R
- “ggplot2: Elegant Graphics for Data Analysis” de Hadley Wickham, Danielle Navarro, and Thomas Lin Pedersen. https://ggplot2-book.org.
- R Graphics Cookbook, de Winston Chang. https://r-graphics.org/index.html
- ggplot2 Essentials. Explore the full range of ggplot plotting capabilities to create meaningful and spectacular graphs, de Donato Teutonico. Publicado pela editora Packt Publishing (2015).
- Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures, de Claus O. Wilke. Publicado pela Editora O’Reilly (2019). Disponível online em: <clauswilke.com/dataviz>
2.8.3 Sites
The R Project for Statistical Computing. https://www.r-project.org
r-bloggers. https://www.r-bloggers.com
Stackoverflow. https://stackoverflow.com/questions/tagged/r
O site the Big Book of R tem uma lista com mais de 300 livros sobre o R nas mais áreas da ciência. https://www.bigbookofr.com
2.8.4 Cursos
- Coursera. https://www.coursera.org (inúmeros cursos sobre a linguagem R)
- edX. https://www.edx.org (inúmeros cursos sobre a linguagem R)
- Datacamp. https://www.datacamp.com
Essa é só uma lista resumida sobre onde encontrar informações sobre o R. Buscando na internet você poderá encontrar uma infinidade de outros livros, manuais, cursos e sites sobre o R.