class: center, middle, inverse, title-slide # Introdução ao R aplicado a pesquisas em empreendedorismo ## R aplicado ao Global Entrepreneurship Monitor ### Daniel Pagotto ### LAPEI/UFG e CIGETS/UFG --- # Agradecimentos <br> <div class="figure" style="text-align: center"> <img src="imagem/realizacao.png" alt=" " width="100%" height="100%" /> <p class="caption"> </p> </div> class: inverse, middle, left # Divisão do curso * **Módulo 1: conceitos básicos de R** + Cálculos básicos + Tipos de variáveis e objetos + O pacote dplyr para manipulação de dataframes + O pacote ggplot2 para visualização de dados * **Módulo 2: usando o R para explorar o Global Entrepreneurship Monitor (GEM)** + Compreendedo as bases + Tratando as bases + Análise Exploratória dos Dados do GEM * **Módulo 3: usando o R para explorar o Panel Study of Entrepreneurial Dynamics (PSED)** + Compreendendo a base + Tratando a base + Análise Exploratória dos Dados do PSED --- class: inverse, middle, left # Objetivos do módulo 2 - Demonstrar relevância do GEM - Explorar variáveis disponíveis no GEM - Aplicar funções para manipular dataframes - Aplicar análise exploratória dos dados --- # Global Entrepreneurship Monitor #### - O [GEM](https://www.gemconsortium.org/) foi criado em 1999 como um projeto conjunto entre a Babson College e a London Business School #### - Pesquisas focam em atitudes/comportamento empreendedor bem como ecossistemas de empreendedorismo #### - Levantamentos são realizados com empreendedores e especialistas #### - Divulgação de relatórios anuais sobre o empreendedorismo pelo mundo, por cada país e relatórios temáticos (ex.: [Impactos da Covid-19 no empreendedorismo](https://www.gemconsortium.org/reports/covid-impact-report)) <br> <img src="imagem/GEM_Logo.jpg" width="100%" height="100%" style="display: block; margin: auto;" /> --- # Global Entrepreneurship Monitor #### - Os microdados do GEM ficam disponíveis após três anos. Porém, no [site](http://gem-consortium.ns-client.xyz/data) é possível acessá-los #### - Para esse curso serão apresentados dados consolidados por países, disponível também no site #### - Tratar os microdados exigiria mais tempo e nivelamento em estatística para trabalhar com bases de amostragem complexa #### - Os relatórios sobre o Brasil podem ser acessados no site do Instituto Brasileiro de Qualidade e Produtividade por esse [link](https://ibqp.org.br/gem/download/). <br> <img src="imagem/GEM_Logo.jpg" width="100%" height="100%" style="display: block; margin: auto;" /> --- # GEM e pesquisas <img src="imagem/artigo_gem1.png" width="90%" height="90%" style="display: block; margin: auto;" /> --- # GEM e pesquisas <img src="imagem/artigo_gem2.png" width="90%" height="90%" style="display: block; margin: auto;" /> --- # GEM e pesquisas <img src="imagem/artigo_gem3.png" width="90%" height="90%" style="display: block; margin: auto;" /> --- # Framework GEM <img src="imagem/framework_gem.jpg" width="85%" height="85%" style="display: block; margin: auto;" /> fonte: [Base de conhecimento - framework](http://gem-consortium.ns-client.xyz/wiki/1148) --- # Bases do GEM <div class="figure" style="text-align: center"> <img src="imagem/gem_bases.png" alt=" " width="100%" height="100%" /> <p class="caption"> </p> </div> fonte: [Base de conhecimento do GEM](http://gem-consortium.ns-client.xyz/about/wiki) --- # Base de especialistas A base de especialistas do GEM contempla diferentes dimensões: * **Finanças empreendedoras**: disponibilidade de diferentes fontes de finanças para pequenas e médias empresas (PMEs) * **Políticas governamentais**: o quanto as políticas públicas contribuem para o empreendedorismo + O quanto empreendedorismo é importante como uma política de governo + O quanto impostos e burocracia afetam o empreendedorismo * **Programas governamentais para empreendedorismo**: presença de programas governamentais com o foco em empreendedorismo * **Educação empreendedora**: presença de treinamentos sobre criação e gerenciamento de PMEs em diferentes graus de ensino + Nível Básico + Nível Superior * **Transferência de Pesquisa & Desenvolvimento (P&D)**: o quanto pesquisas nacionais conduzem a criação de oportunidades comerciais e estão disponíveis para PMEs --- # Base de especialistas * **Infraestrutura legal e comercial**: presença de serviços e instituições que fornecem suporte a PMEs * **Regulação de entrada**: que é dividida em a) dinamismo de mercado - o quanto o mercado muda de ano a ano; b) abertura de mercado - o quanto novas empresas são livres para entrar em mercados existentes * **Infraestrutura física**: facilidade de acessar recursos físicos (ex.: comunicação, logística, espaço físico) * **Cultura e normas sociais**: o quanto normas sociais e culturais encorajam novos métodos de negócios que podem gerar riqueza e renda para uma pessoa Vamos começar lendo a base a partir do meu repositório do github: ```r library(readr); library(dplyr); library(skimr) library(ggplot2); library(ggrepel); library(directlabels) library(GGally) gem_especialistas <- read_delim("https://raw.githubusercontent.com/danielppagotto/R_empreendedorismo2/main/arquivos%20de%20bases/gem_nes_historico.csv", ";", escape_double = FALSE, trim_ws = TRUE) ``` --- # Compreendendo as variáveis da base ```r # Vamos usar o glimpse para conferir a base glimpse(gem_especialistas) ``` ``` ## Rows: 649 ## Columns: 15 ## $ code <dbl> 244, 43, 55, 226, 56, 57, 385, ~ ## $ economy <chr> "Angola", "Austria", "Brazil", ~ ## $ year <dbl> 2020, 2020, 2020, 2020, 2020, 2~ ## $ financing <dbl> 2.18, 2.88, 2.73, 1.95, 2.17, 2~ ## $ gov_support <dbl> 2.50, 2.79, 2.36, 2.16, 2.54, 2~ ## $ taxes_bureaucracy <dbl> 1.98, 2.53, 1.85, 2.34, 2.78, 2~ ## $ gov_programs <dbl> 2.00, 3.60, 2.56, 2.35, 3.02, 2~ ## $ basic_school_entrepreneurship <dbl> 1.93, 1.74, 1.94, 1.55, 1.82, 2~ ## $ post_school_entrepreneurship <dbl> 2.20, 2.67, 2.73, 2.25, 2.81, 3~ ## $ rd_transfer <dbl> 1.74, 2.77, 2.16, 2.04, 2.40, 2~ ## $ commercial_professional_infraestruture <dbl> 2.14, 3.27, 2.79, 2.89, 2.82, 2~ ## $ internal_market_dynamics <dbl> 3.07, 2.70, 3.73, 2.47, 2.66, 2~ ## $ internal_market_openess <dbl> 2.09, 3.34, 2.55, 2.25, 2.23, 2~ ## $ physical_infrastructure <dbl> 2.23, 4.20, 3.40, 2.76, 3.99, 3~ ## $ cultural_social_norms <dbl> 2.85, 2.63, 2.89, 2.60, 3.05, 3~ ``` --- # Explorando a base de especialistas Vamos baixar a base e comparar alguns países: Brasil, Chile, Colômbia e México. Além disso, vamos separar algumas variáveis de interesse: `economy`, `year`, `gov_support`, `taxes_bureaucracy`, `gov_programs`, `internal_market_dynamics`. <br> ```r paises <- c("Brazil","Chile","Colombia","Mexico") gem_paises_selecionados <- gem_especialistas %>% filter(economy %in% paises) %>% select(economy, year, gov_support, taxes_bureaucracy, gov_programs, internal_market_dynamics) # Estatísticas descritivas gem_paises_selecionados %>% select(-year) %>% group_by(economy) %>% skim() ``` --- # Plotando variáveis Vamos investigar a variável `gov_support` dos países ao longo do tempo. ```r gem_paises_selecionados %>% ggplot(aes(year,gov_support)) + geom_line() ``` <img src="index_files/figure-html/ggplot0-1.png" style="display: block; margin: auto;" /> --- # Adicionando o parâmetro col Vamos ainda destacar mais a linha e retirar esse fundo cinza ```r gem_paises_selecionados %>% ggplot(aes(year,gov_support, col = economy)) + geom_line(size = 2) + theme_minimal() ``` <img src="index_files/figure-html/ggplot1-1.png" style="display: block; margin: auto;" /> --- # Adicionando títulos ```r gem_paises_selecionados %>% ggplot(aes(year,gov_support, col = economy)) + geom_line(size = 2) + theme_minimal() + xlab("Ano") + ylab("Suporte Governamental") + ggtitle("Suporte Governamental", "Comparação entre Brasil, Chile, Colombia e México - Dados GEM") ``` <img src="index_files/figure-html/ggplot2-1.png" style="display: block; margin: auto;" /> --- # Adicionando textos às linhas ```r gem_paises_selecionados %>% ggplot(aes(year,gov_support, col = economy)) + geom_line(size = 2) + geom_dl(aes(label = economy), method = list(dl.combine("first.points", "last.points"))) + theme_minimal() + xlab("Ano") + ylab("Suporte Governamental") + ggtitle("Suporte Governamental", "Comparação entre Brasil, Chile, Colombia e México - Dados GEM") ``` <img src="index_files/figure-html/ggplot3-1.png" style="display: block; margin: auto;" /> --- # Aumentando as fontes Vamos aumentar as fontes e retirar a legenda ```r gem_paises_selecionados %>% ggplot(aes(year,gov_support, col = economy)) + geom_line(size = 2) + geom_dl(aes(label = economy), method = list(dl.combine("first.points", "last.points"))) + theme_minimal() + xlab("Ano") + ylab("Suporte Governamental") + theme(legend.position = "none") + theme(plot.title = element_text(size=22)) + theme(axis.title.y = element_text(size = rel(1.2), angle = 90)) + theme(axis.title.x = element_text(size = rel(1.2), angle = 0)) + ggtitle("Suporte Governamental", "Comparação entre Brasil, Chile, Colombia e México - Dados GEM") ``` <img src="index_files/figure-html/ggplot4-1.png" style="display: block; margin: auto;" /> --- # Mudando a escala Vamos aumentar as fontes e retirar a legenda ```r gem_paises_selecionados %>% ggplot(aes(year,gov_support, col = economy)) + geom_line(size = 2) + geom_dl(aes(label = economy), method = list(dl.combine("first.points", "last.points"))) + theme_minimal() + xlab("Ano") + ylab("Suporte Governamental") + theme(legend.position = "none") + theme(plot.title = element_text(size=22)) + theme(axis.title.y = element_text(size = rel(1.2), angle = 90)) + theme(axis.title.x = element_text(size = rel(1.2), angle = 0)) + ggtitle("Suporte Governamental", "Comparação entre Brasil, Chile, Colombia e México - Dados GEM") + scale_x_continuous(breaks = seq(2010,2020,1)) ``` <img src="index_files/figure-html/ggplot5-1.png" style="display: block; margin: auto;" /> --- # Exercício de fixação #### Tente fazer o mesmo exercício para outras variáveis, outros países e outros espaços temporais <img src="https://media.giphy.com/media/H1f1T0tKK4jEfNt6MG/giphy.gif" width="50%" height="50%" style="display: block; margin: auto;" /> <br> Fonte: [giphy](https://media.giphy.com/media/H1f1T0tKK4jEfNt6MG/giphy.gif) --- # Explorando dados de APS Os dados consolidados do levantamento com população adulta é composto pelas seguintes variáveis: * **Taxa de Oportunidades Percebidas**: percentual de indivíduos de 18 a 64 anos (exceto aqueles envolvidos em algum estágio de atividade empreendedora) que enxergam boas oportunidades para se iniciar um negócio na área onde vivem. * **Taxa de atividade empreendedora total (TAE)**: percentual da população de 18 a 64 anos que é um empreendedor nascente ou proprietário-gerente de um novo negócio. * **Medo de fracassar**: percentual da população de 18 a 64 anos (indivíduos envolvidos em qualquer estágio da atividade empresarial excluídos) que indicam que o medo do fracasso os impedem de abrir um negócio. * **Empreendedorismo como boa escolha de carreira**: percentual da população de 18 a 64 anos que concorda com a afirmação de que, em seu país, a maioria das pessoas considera iniciar um negócio como uma escolha de carreira desejável. Para conhecer todas acesse [aqui](https://www.gemconsortium.org/wiki/1154). --- # Associando o GEM a outras bases Muitas pesquisas utilizam o GEM associado a outras bases. Para o nosso exercício, vamos utilizar dados da Worldwide Governance Indicator (WGI), que pode ser acessada por meio da seguinte [página](https://info.worldbank.org/governance/wgi/). ### *"Governança consiste na tradição e nas instituições pelas quais a autoridade em um país é exercida. Isso inclui o processo pelo qual um governante é escolhido, monitorado e substituído; a capacidade do governo formular efetivamente e implementar políticas sólidas; e o respeito dos cidadãos e do Estado pelas instituições que regem as interações econômicas e sociais entre eles."* (WGI) As variáveis variam entre -2,5 (fraco índice de governança) a 2,5 (forte índice de governança). Para fins didáticos, transformei o indicador para variar de 0 a 5 pontos. --- # Conhecendo variáveis do WGI * **Control of Corruption**: reflete as percepções da extensão em que o poder público é exercido para ganho privado, incluindo formas insignificantes e grandes de corrupção, bem como a "captura" do Estado pelas elites e interesses privados. * **Rule of Law**: reflete as percepções sobre o nível em que os agentes confiam e cumprem as regras da sociedade e, em particular, a qualidade da execução de contratos, direitos de propriedade, polícia e tribunais, bem como a probabilidade de crime e violência. * **Regulatory Quality**: reflete a percepção da capacidade do governo de formular e implementar políticas e regulamentações sólidas que permitam e promovam o desenvolvimento do setor privado. * **Politicial Stability and Absence of Violence/Terrorism**: mede as percepções da probabilidade de instabilidade política e/ou violência com motivação política, incluindo terrorismo. * **Voice and Accountability**: reflete as percepções sobre o nível em que os cidadãos de um país podem participar da seleção de seu governo, bem como a liberdade de expressão, a liberdade de associação e a liberdade de mídia. --- # Juntando bases Vamos juntar as bases, selecionar as variáveis de interesse e, finalmente, inspecionar alguns dados de estatística descritiva por continente. Lendo as bases a partir do GitHub ```r wgidataset <- read_csv("https://raw.githubusercontent.com/danielppagotto/R_empreendedorismo2/main/arquivos%20de%20bases/wgi.csv") gem_aps <- read_delim("https://raw.githubusercontent.com/danielppagotto/R_empreendedorismo2/main/arquivos%20de%20bases/gem_2019_aps.csv", ";", escape_double = FALSE, trim_ws = TRUE) gem_wgid <- gem_aps %>% left_join(wgidataset, by = c("abrev" = "code")) %>% select(economy, continent, tea, perceived_opportunities, fear_failure, established_ownership, entrepreneurship_as_good_carrer_choice, corruption, rule_of_law, regulatory_quality, political_stability, voice_accountability) gem_wgid %>% group_by(continent) %>% skim() ``` --- # Estatística descritiva - GGally ```r gem_wgid %>% select(-economy,-continent) %>% ggpairs() ``` <img src="index_files/figure-html/ggally-1.png" style="display: block; margin: auto;" /> --- # Explorando mais... Vamos explorar mais a fundo a variável `Entrepreneurship as good carrer choice`. ```r gem_wgid %>% ggplot(aes(x = political_stability, y = entrepreneurship_as_good_carrer_choice)) + geom_point() + theme_minimal() + geom_smooth(method = "lm", se = FALSE) ``` <img src="index_files/figure-html/estabilidade-1.png" style="display: block; margin: auto;" /> --- # e mais... ```r gem_wgid %>% ggplot(aes(x = political_stability, y = entrepreneurship_as_good_carrer_choice)) + geom_point(aes(col = continent, size = 1.5)) + theme_minimal() + geom_text_repel(aes(label = economy)) + theme(legend.position = "none") + geom_smooth(method = "lm", se = FALSE) ``` <img src="index_files/figure-html/estabilidade2-1.png" style="display: block; margin: auto;" /> --- # Aplicando facet_grid() ```r gem_wgid %>% ggplot(aes(x = political_stability, y = entrepreneurship_as_good_carrer_choice)) + geom_point(aes(col = continent, size = 1.5)) + facet_grid(~continent) + theme_minimal() + theme(legend.position = "none") + geom_smooth(method = "lm", se = FALSE) ``` <img src="index_files/figure-html/estabilidade3-1.png" style="display: block; margin: auto;" /> --- # Podemos voltar ao GGAlly Podemos fazer filtragem de um continente apenas e verificar o resultados das variáveis ```r gem_wgid %>% filter(continent == "Europa") %>% select(-economy,-continent) %>% ggpairs() ``` <img src="index_files/figure-html/ggally_europa-1.png" style="display: block; margin: auto;" /> --- # Exercício de fixação #### Tente fazer o mesmo exercício para outras variáveis ou filtrando outro continente <img src="https://media.giphy.com/media/H1f1T0tKK4jEfNt6MG/giphy.gif" width="50%" height="50%" style="display: block; margin: auto;" /> <br> Fonte: [giphy](https://media.giphy.com/media/H1f1T0tKK4jEfNt6MG/giphy.gif) --- class: inverse, middle, center # Obrigado **Daniel Pagotto** | danielppagotto@gmail.com | [LinkedIn](https://www.linkedin.com/in/daniel-do-prado-pagotto-bab62a50/)