Webscraping em R: uma abordagem para investigação em ciências sociais
DOI:
https://doi.org/10.47456/simbitica.v8i4.37351Resumen
Este artigo apresenta uma breve introdução ao uso de algoritmos para coleta de dados em repositórios online em investigações no campo das ciências sociais a partir de um modelo empírico de pesquisa sobre produção acadêmica de bolsistas de produtividade do CNPq no Brasil. Metodologicamente, apresentamos uma pesquisa realizada com a aplicação da técnica computacional de elaboração de algoritmos e, em seguida, descrevemos o passo-a-passo do planejamento de algoritmo de scrapping a partir do software R. Busca-se não apenas tornar mais compreensível a técnica computacional para recolha de dados, como também fomentar sua utilização no campo das ciências sociais, tornando as coletas de dados em repositórios institucionais mais sistemáticas, transparentes, replicáveis e céleres.
Palavras-chave: ciências sociais; produção acadêmica; coleta de dados quantitativos; algoritmos.
Abstract
This article presents a brief introduction to the algorithms for data collection used in online repositories in social sciences investigations based on empirical research on academic production of CNPq scientific productivity grants in Brazil. Methodologically, we present a study carried out to apply the computational technique of elaborating algorithms. Then we describe the step-by-step planning of the scrapping algorithm using the R software. The computational approach for data collection is understandable and promotes its use in the field of social sciences, making data collection in institutional repositories more systematic, transparent, replicable and quick.
Keywords: Social sciences; academic production; quantitative data collection; algorithms.
Resumen
Este artículo presenta una breve introducción al uso de algoritmos para la recolección de datos en repositorios en línea en investigaciones en el campo de las ciencias sociales a partir de un modelo de investigación empírica sobre la producción académica de becarios de productividad del CNPq en Brasil. Metodológicamente, presentamos una investigación realizada con la aplicación de la técnica computacional de elaboración de algoritmos y luego describimos la planificación paso a paso del algoritmo de scrapping utilizando el software R. La técnica computacional para la recolección de datos intenta promover su uso en el campo de las ciencias sociales, haciendo que la recolección de datos en los repositorios institucionales sea más sistemática, transparente, replicable y rápida.
Palavras clave: ciencias sociales; producción académica; recopilación de datos cuantitativos; algoritmos.
Descargas
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2021 Quemuel Baruque de Freitas Rodrigues, Mayres Pequeno, Marina Félix de Melo, Amurabi Oliveira
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Autores que publicam nesta revista concordam com os seguintes termos:
a. Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons - Atribuição-NãoComercial 4.0 Internacional.
b. Compartilhar - copiar e distribuir o material em qualquer meio ou formato.
Adaptar - remix, transformar e construir sobre o material para qualquer finalidade, inclusive comercial.
c. Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
d. Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).
Authors who publish in this journal agree to the following terms:
a. Authors retain the copyright and grant the magazine the right of first publication, with work simultaneously licensed under the CCreative Commons - Atribuição-NãoComercial 4.0 Internacional.
b. Share - copy and distribute the material in any medium or format.
Adapt - remix, transform and build on the material for any purpose, including commercial.
c. Authors are authorized to take additional contracts separately, for non-exclusive distribution of the version of the work published in this journal (eg, publish in institutional repository or as a book chapter), with acknowledgment of authorship and initial publication in this journal.
d. Authors are allowed and encouraged to publish and distribute their work online (eg.: in institutional repositories or on their personal page) at any point before or during the editorial process, as this can generate productive changes as well as increase the impact and the citation of the published work (See The Effect of Free Access).