Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontradoTotal de termosTermos comunsSimilaridade (%)
portal.inep.gov.br/w... Visualizar 675 33 0,65
portal.inep.gov.br/e... Visualizar 953 23 0,43
portal.inep.gov.br/a... Visualizar 1036 20 0,36
portal.inep.gov.br/ Visualizar 593 13 0,26
portal.inep.gov.br/e... Visualizar 1068 14 0,25
nocodewebscraping.co... Visualizar 664 11 0,21
pt.wikipedia.org/wik... Visualizar 694 4 0,07
statisticshowto.data... Visualizar 2507 0 0
loja.elsevier.com.br... Visualizar 40 0 0
about.ask.com/ - - - - Conversão falhou


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: http://portal.inep.gov.br/ (593 termos)

Termos comuns: 13
Similaridade: 0,26%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "http://portal.inep.gov.br/".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: http://portal.inep.gov.br/web/guest/enem (675 termos)

Termos comuns: 33
Similaridade: 0,65%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "http://portal.inep.gov.br/web/guest/enem".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: http://portal.inep.gov.br/artigo (1036 termos)

Termos comuns: 20
Similaridade: 0,36%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "http://portal.inep.gov.br/artigo".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/regression-analysis/scatter-plot-chart/ (2507 termos)

Termos comuns: 0
Similaridade: 0%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/regression-analysis/scatter-plot-chart/".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: http://portal.inep.gov.br/educacao-basica/encceja (1068 termos)

Termos comuns: 14
Similaridade: 0,25%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "http://portal.inep.gov.br/educacao-basica/encceja".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: http://portal.inep.gov.br/educacao-basica (953 termos)

Termos comuns: 23
Similaridade: 0,43%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "http://portal.inep.gov.br/educacao-basica".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: https://pt.wikipedia.org/wiki/Elsevier (694 termos)

Termos comuns: 4
Similaridade: 0,07%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "https://pt.wikipedia.org/wiki/Elsevier".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: https://www.loja.elsevier.com.br/ (40 termos)

Termos comuns: 0
Similaridade: 0%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "https://www.loja.elsevier.com.br/".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa


Arquivo de entrada: BJPE_mineracao_enem.docx (4391 termos)
Arquivo encontrado: https://nocodewebscraping.com/difference-data-mining-kdd/ (664 termos)

Termos comuns: 11
Similaridade: 0,21%

O texto abaixo é o conteúdo do documento
 "BJPE_mineracao_enem.docx".
Os termos em vermelho foram encontrados no documento
 "https://nocodewebscraping.com/difference-data-mining-kdd/".


Mineração de dados educacionais na base de dados do ENEM 2015
Educational data mining on ENEM 2015 database
Autor11; Autor22; Autor33

1 2 3Departamento de Engenharias e Tecnologia do Centro Universitário Norte do Espírito Santo da Universidade
Federal do Espírito Santo, Rodovia BR 101 Norte, Km. 60, Bairro Litorâneo, CEP 29932-540, São Mateus. revistabjpe@gmail.com


Brazilian Journal of Production Engeneering, São Mateus, Vol. X, N.º Y, p. aa-bb. (ano). Editora CEUNES/DETEC.
Disponível em: http://periodicos.ufes.br/BJPE
ARTIGO INFO.
Recebido em:
Aprovado em:
Disponibilizado em:
Palavras-chave:
Descoberta de Conhecimento; ENEM 2015; Mineração de Dados; Classificação; Regressão Linear.
Keywords:
Knowledge Discovery; ENEM 2015; Data Mining; Classification; Linear Regression

*Autor Correspondente: Revista B.J.P.E.

RESUMO
Este trabalho aplica o processo de descoberta de conhecimento em base de dados (KDD) no conjunto de dados abertos do ENEM por escola no ano de 2015, com o objetivo de encontrar relações entre os indicadores contextuais presentes na base de dados e as notas médias nas diferentes áreas de conhecimento avaliadas pelo exame. No pré-processamento os dados são adequados e filtrados, com o Microsoft Excel e o software R, para serem utilizados na etapa seguinte. Na fase de mineração de dados utiliza-se o software R para a aplicação de algoritmos de classificação e de regressão linear.
Os resultados obtidos através das técnicas de mineração de dados são transformados em conhecimento útil e apresentado através de gráficos. A regressão linear indica uma grande eficiência na previsão da nota de língua portuguesa, mostrando forte influência dos indicadores contextuais para sua determinação.

ABSTRACT

This work applies the steps of Knowledge Discovery in Databases (KDD) in the ENEM open data set, by school, in the year 2015, with the objective of finding relationships between the contextual indicators present in the database and the average scores in the different areas of knowledge assessed by the exam. In pre-processing the data is appropriate and filtered, with Microsoft Excel and R, to be used in the next step. In the data mining phase, R is used for the application of classification and linear regression algorithms. The results obtained through the techniques of data mining are transformed into useful knowledge and presented through graph plots. Linear regression indicates great efficiency in predicting the Portuguese language note, showing strong influence of contextual indicators for its determination.















8

8

8

Introdução
Dados vem sendo coletados e acumulados em um ritmo acelerado em uma ampla variedade de domínios. O volume de dados produzidos ultrapassa a capacidade humana de analisá-los sem algum tipo de auxílio computacional. Por isso, é necessário o uso de ferramentas e teorias que auxiliem na extração de informação útil (conhecimento). Tais teorias e ferramentas compõem o que chamamos de descoberta de conhecimento em base de dados, ou KDD (do inglês, “Knowledge Discovery in Databases”) (FAYYAD et al., 1996).
Mineração de dados ou Data Mining é uma etapa do KDD, nesse sentido, o conhecimento a ser descoberto é o produto final do KDD. Data Mining consiste na aplicação de algoritmos específicos para extrair padrões dos dados. Outros passos da descoberta de conhecimento incluem preparação, seleção e limpeza dos dados e interpretação apropriada dos resultados da mineração.
Mineração de Dados, ou DM (do inglês, “Data Mining”), pode ser também entendido como uma área interdisciplinar, mobilizando principalmente conhecimentos de análise estatística de dados, aprendizagem de máquina, reconhecimento de padrões e visualização de dados (CABENA et al., 1998).
Alguns autores consideram Data Mining como sinônimo de KDD (KLÖSGEN et al., 2002), referindo-se a ambas como uma disciplina que objetiva a extração automática de padrões interessantes e implícitos de grandes coleções de dados.
A mineração de dados educacionais, ou EDM (do inglês, “Educational Data Mining”), é definida como a área de pesquisa que tem como principal foco o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais (BAKER et al., 2011). Através da análise desses dados é possível determinar fatores que influenciam a aprendizagem e melhorá-la de forma eficaz.
O Exame Nacional do Ensino Médio (ENEM), realizado anualmente pelo INEP desde 1998, tem como objetivo avaliar o desempenho escolar ao final da Educação Básica. Atualmente o ENEM permite aos estudantes ingressar no Ensino Superior, através de programas como o SISU, PROUNI e convênios com instituições portuguesas, e em programas de financiamento e apoio estudantil (INEP, 2019d).
Os dados do ENEM 2015 serão utilizados neste trabalho, em função de que 2015 foi o último ano em que o INEP disponibilizou, de forma pública, os dados do ENEM das instituições e seus respectivos indicadores socioeconômicos.
O objetivo deste trabalho é utilizar os dados do ENEM 2015 para avaliar o desempenho das escolas públicas e privadas, que participaram dessa edição. Neste caso, será utilizado um algoritmo de regressão linear, para que se possa determinar se as notas de uma determinada disciplina têm relação com os indicadores contextuais da base de dados de 2015, com ênfase no nível socioeconômico das instituições.
Descoberta de conhecimento em base de dados
O processo de KDD, tem como objetivo filtrar, e identificar padro?es em conjuntos de dados que analisados gerem informac?o?es va?lidas para estrate?gias e tomadas de decisões (FAYYAD et al., 1996). A Figura 1 apresenta as etapas do KDD.
O processo de KDD e? composto por tre?s etapas operacionais: Pre?-processamento, Minerac?a?o de Dados e Po?s-processamento. A primeira etapa compreende as func?o?es relacionadas a captac?a?o, a? organizac?a?o e ao tratamento dos dados e tem como objetivo a preparac?a?o dos dados para os algoritmos para a etapa seguinte.
Na etapa de Mineração de Dados, e? realizada a busca efetiva por conhecimentos u?teis e, sa?o definidas as te?cnicas e os algoritmos a serem utilizados no problema em questa?o. A u?ltima etapa abrange o tratamento do conhecimento obtido com o objetivo de viabilizar o conhecimento descoberto (GOLDSHMIDT; PASSOS, 2005). As etapas operacionais são descritas a seguir:
Pré-processamento: e? a fase de selec?a?o e preparac?a?o dos dados. Ela e? iniciada, a partir da premissa de especificac?a?o dos objetivos a serem alcançados no final do processo de extrac?a?o de conhecimento. Neste momento que sa?o retirados os dados ruidosos (que contenham valores discrepantes do esperado), inconsistentes e incompletos (HAN et al., 2012).
Mineração de Dados: e? o processo de busca de conhecimento através de algoritmos inteligentes. É uma das alternativas para extrair conhecimento a partir de um grande volume de dados. Nesta etapa, os dados sa?o transformadas em informac?o?es que posteriormente, após a análise e interpretação dessas informac?o?es, sa?o transformadas em conhecimentos para tomadas de decisões. Dentre as atividades que podem ser implementadas na Minerac?a?o de Dados, destacam-se a classificac?a?o, clusterizac?a?o, agrupamentos, sumarizac?a?o (GOLDSHMIDT; PASSOS, 2005).
Pós-processamento: Esta etapa do KDD envolve análise, interpretação e visualização do modelo de conhecimentos gerado pela etapa de Mineração de Dados. Os resultados devem ser analisados e interpretados pois nem todo conhecimento gerado é de fato útil para a aplicação. A visualização é necessária para que seja possível para a percepção humana concluir informações baseadas nas análises feitas (GOLDSHMIDT; PASSOS, 2005).
Como apresentado na Figura 1, as etapas operacionais dividem-se em 5 estágios mais específicas:
Seleção – é o processo que seleciona os dados que sera?o minerados pelo algoritmo inteligente;
Pre?-processamento – e? a parte do processo em que sa?o realizados a limpeza dos dados. Retirando dados nulos, inconsistentes;
Formatação – esta fase faz a transformac?a?o dos dados brutos, que foram selecionados e eliminados nas fases anteriores, em dados transformados para que sejam aplicados no algoritmo inteligente;
Minerac?a?o de dados – nesta fase e? aplicado o algoritmo inteligente que fara? a minerac?a?o dos dados de acordo com o tipo de conhecimento a ser minerado;
Interpretac?a?o – nesta fase sa?o validados os resultados encontrados. Neste momento, são realizadas as análises de acordo com os objetivos buscados.
Mineração de dados educacionais
A Mineração de Dados Educacionais (EDM) vem ganhando destaque atualmente. Após uma sequência de workshops relacionados ao tema e realizados anualmente desde 2004, criou-se, em 2008, a Conferência Internacional sobre Mineração de Dados (BAKER et al., 2011). Em 2009 foi publicado o primeiro volume da Revista de Mineração de Dados Educacionais (Journal of Educational Data Mining).
A EDM busca utilizar ou adaptar métodos e algoritmos de mineração de dados já existentes, de forma a compreender melhor dados produzidos por estudantes e professores. A Mineração de Dados Educacionais pode, entre outras coisas, auxiliar a entender o estudante no seu processo de aprendizagem. Há a necessidade de adequar os algoritmos de mineração de dados existentes para lidar com especificidades dos dados educacionais, como a não independência estatística e a hierarquia dos dados (COSTA et al., 2012).
Muitas das linhas de pesquisa na área de EDM são derivadas diretamente da mineração de dados. Alguns dos tópicos mais interessantes da área são: predição, agrupamento, minerac?a?o de relações, destilação de dados para facilitar decisões humanas e descobrimento com modelos. A seguir e? exposto uma breve descrição de cada um desses tópicos (BAKER et al., 2011).
Predição: métodos de predição são utilizados para determinar quais características de um modelo são relevantes para a sua predição;
Agrupamento: o objetivo é classificar os dados em grupos de acordo com suas características;
Mineração de relações: esta tarefa envolve descobrir quais variáveis são mais fortemente associadas com uma variável específica. O R, especificamente, gera muito facilmente matriz de correlação, que pode ser usada tanto para ver a relação entre as variáveis como com alguns outros algoritmos, a depender do objetivo;
Destilação de dados para facilitar decisões humanas: a meta aqui é tornar possível a visualização dos dados de forma gráfica e relevante;
Descobrimento com modelos: a partir de um modelo já definido por uma técnica de predição ou agrupamento, será feita uma segunda análise com outra técnica de MDE.
Contextualização do ambiente de dados
Dados Abertos sa?o dados que estão livremente disponíveis para todos utilizarem como desejarem, sem restrição de licenças, patentes ou mecanismos de controle. Segundo o Portal Brasileiro de Dados Aberto, para serem considerados dados abertos, os mesmos devem ser publicados em um formato legi?vel por ma?quina (Brasil, 2017).
O Governo e? um principal contribuinte neste contexto. “No Brasil, o direito de cada cidada?o ter acesso aos dados esta? previsto na Lei Federal 12.527/2011, conhecida como Lei de Acesso a? Informac?a?o” (Brasil, 2011).
O Manual dos dados abertos apresenta um conjunto de a?reas e atividades em que os dados abertos esta?o gerando valor, entre as quais tem-se: Transpare?ncia e controle democra?tico; Participac?a?o popular; Empoderamento dos cidada?os; Melhores ou novos produtos e servic?os privados; Inovac?a?o; Melhora na eficie?ncia dos servic?os governamentais; Conhecimento novo a partir da combinac?a?o de fontes de dados e padro?es (NIC, 2017).
O Instituto Nacional de Estudos e Pesquisas Educacionais Ani?sio Teixeira (INEP) e? uma autarquia federal vinculada ao Ministe?rio da Educac?a?o (MEC), visa subsidiar a formulac?a?o de poli?ticas educacionais dos diferentes ni?veis de governo com intuito de contribuir para o desenvolvimento econo?mico e social do pai?s. Dentro deste contexto, sa?o gerados pelo INEP dados referentes ao desempenho dos estudantes de instituic?o?es de ensino fundamental, médio e superior, pu?blicas e privadas.
Os dados, utilizados neste trabalho, estão disponíveis no site do INEP, mas o conjunto de dados escolhidos foram os microdados do ENEM por escola (2005 a 2015). Para esta análise, foram filtrados somente os dados correspondentes ao ano de 2015. Os dados estão em um formato CSV, dentro do pacote microdados_enem_por_escola que contém também o dicionário de dados.
O ano de 2015 foi escolhido por ser o primeiro a possuir o indicador de nível socioeconômico (INSE) das escolas, além do que, os dados do ano de 2015 foram os últimos com o INSE disponibilizado de forma aberta pelo INEP. Segundo a nota técnica do ENEM de 2015 (INEP, 2019a):
O INSE possibilita, de modo geral, situar o publico atendido pela escola em um estrato social, apontando o padrão de vida referente a cada um de seus ni?veis ou estratos. Esse indicador e? calculado a partir do nível de escolaridade dos pais e da posse de bens e contratação de serviços pela família dos alunos.
Os dados do INSE de todas as escolas do país podem ser obtidos no site do INEP. O pacote contendo os dados do INSE possui também uma nota técnica que explica o cálculo desse índice de forma detalhada. Os dados presentes nesse pacote foram também utilizados para corrigir os nomes das instituições presentes no conjunto de dados do ENEM, que estavam com problemas de formatação.
Como os dados socioeconômicos serão mencionados com certa frequência no decorrer deste texto, cabe fazer uma breve explicação sobre quais são esses grupos e o que eles representam. As informações aqui mencionadas podem ser encontradas de forma mais aprofundada no INEP (2019b).
Em um primeiro momento o INEP classifica os estudantes de uma escola em um nível socioeconômico que varia de I a VIII. Quando menor o nível socioeconômico, piores as condições socioeconômicas daquele estudante, e quanto maior o nível socioeconômico, melhores são as condições socioeconômicas.
Os dados utilizados nesse trabalho são do ENEM de 2015 por escola, ou seja, apresenta o índice socioeconômico da escola, não do aluno. As escolas são classificadas em grupos de 1 a 6, sendo que o grupo 1 representa uma maior quantidade de estudantes de níveis socioeconômicos menores, e o grupo 6 representa uma maior quantidade de estudantes de níveis socioeconômicos maiores.
Ferramentas e algoritmos
Os dados selecionados através do portal do INEP, por estarem no formato de planilhas .csv, puderam ser rapidamente visualizados no Microsoft Excel.
Com exceção da etapa de seleção de dados, todas as demais etapas do KDD foram realizadas com o RStudio, que é um ambiente de desenvolvimento integrado, do inglês integrated development enviroment (IDE). O RStudio foi criado para facilitar a utilização da linguagem de programação R, de forma similar ao que ocorre com o popular Eclipse, nesse caso para a linguagem de programação Java. Por esta razão, todas as demais menções em relação a bibliotecas, algoritmos e técnicas serão com relação ao R, pois estes funcionam de forma independente ao RStudio. Para o desenvolvimento do trabalho foram utilizadas as bibliotecas gglopt2, caret, rpart, rpart.plot, corrr, stats e stringr. As versões e os softwares utilizados são:
Excel, versão 16.27, com a licença do Office 365;
R, versão 3.5.1;
Bibliotecas – ggplot2 (3.1.0), caret (6.0), rpart (4.1), rpart.plot (3.0.6), corr (0.3.2), stats (3.5.1), stringr (1.3.1);
RStudio, versão 1.1.463.
Classificação e regressão linear
Por ser inédito na versão de 2015, o indicador de nível socioeconômico, ou INSE, é um dos atributos mais importantes. Em Silva et al. (2014) os autores criaram um questionário para fazer um levantamento de dados socioeconômicos de alunos de escolas das capitais da região sudeste do Brasil, no ano de 2010. Esses dados foram relacionados com os resultados obtidos no exame e a conclusão consistiu em fatores que influenciaram o desempenho, dentre eles o fator socioeconômico.
Apesar de ser relevante para o contexto que foi realizado o trabalho, a amostra com a qual os autores trabalharam não contemplava toda a extensão do território nacional e seu questionário socioeconômico difere do questionário realizado pelo INEP. A vantagem de utilizar os dados diretos do INEP é justamente por haver uma padronização na coleta desses dados, que podem ser comparados de um ano para o outro, por exemplo. E mais importante ainda, evita-se o trabalho de realizar o levantamento desses dados, o que justifica uma menor amostra utilizada em Silva et al. (2014).
Influenciado pelo trabalho de Silva et al. (2014), a motivação deste trabalhou consiste em realizar a classificação das escolas considerando o seu INSE (INEP, 2019a). A ideia de usar a classificação veio de Simon e Cazella (2017) que trabalharam também com os dados do ENEM de 2015. A classificação foi feita com a biblioteca rpart. A biblioteca é capaz de gerar modelos de classificação e regressão.
Metodologia
Pré-processamento
Primeira etapa – Seleção dos dados
Em um primeiro momento os dados do ENEM por escola de 2005 a 2015 foram abertos no Microsoft Excel para melhor visualização dos seus atributos. Através do dicionário de dados foi definido que somente o ano de 2015 apresentaria relevância para este trabalho, então, ainda utilizando o Excel foi feita a filtragem. Após filtragem restaram 15.598 registros com 27 colunas.
Segunda etapa – pré-processamento
De todos os 15.598 registros, somente 101 possuíam algum tipo de dado em branco. Após pesquisa no portal do INEP, constatou-se que esses dados realmente estavam incompletos. Logo, para melhor eficiência dos algoritmos e análises, esses registros foram removidos.
Para auxiliar nas análises, alguns atributos foram decodificados, por exemplo para a dependência administrativa que pode assumir o valor 1, 2, 3 ou 4, que representam, respectivamente, dependência administrativa Estadual, Federal, Municipal ou Privada.
Outros dados que passaram pelo processo de codificação/decodificação incluem: PORTE_ESCOLA, TP_LOCALIZACAO_ESCOLA e INSE. Ainda para exclusivo uso das análises no pré-processamento, alguns atributos foram distribuídos em faixas, são eles:
As cinco notas nas áreas de conhecimento – faixas de 5;
PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, NU_TAXA_PARTICIPACAO – faixas de 10;
A criação de faixas se faz necessária pois os valores brutos estão distribuídos de forma contínua, em números reais. Ao criar um gráfico com os dados brutos, há uma dificuldade para observar alguns comportamentos, como explicado a seguir.
O gráfico da Figura 2 não consegue mostrar a realidade da distribuição das notas, pois há uma sobreposição dos registros diferentes devido a limitação do gráfico de barras, e existem poucos registros iguais, já que há uma precisão decimal com relação à nota bruta. A distribuição das notas por escola é melhor visualizada na Figura 3.

As notas brutas ainda serão utilizadas na mineração de dados, mas a distribuição em faixas garante uma melhor visualização a depender do contexto.
Dados como PC_FORMACAO_DOCENTE e TAXA_APROVACAO encontram-se em porcentagens. Visando ainda o uso de algoritmos de mineração de dados, foi criado mais cinco atributos que colocam as notas das áreas de conhecimento em porcentagens também, já que alguns algoritmos podem dar maior relevância para as notas visto que estas se encontram originalmente numa escala de 0 a 1000, e os dados que estão em porcentagem, intuitivamente, estão numa escala de 0 a 100. Esses atributos foram nomeados como CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Ao final do pré-processamento, restaram 15.497 registros e 42 colunas (ou, atributos). O aumento de colunas se deu devido a codificação/decodificação de alguns atributos já presentes na base de dados e também devido a criação de dez novos atributos que são formas diferentes de representação das notas médias brutas nas cinco áreas de conhecimento.
Mineração de dados
A literatura disponibiliza diversos algoritmos e tarefas relacionadas a mineração, mas este são utilizadas de acordo com o objetivo da análise dos dados. Para este trabalho, é importante ressaltar as duas categorias de técnicas de aprendizagem (CAMILO; SILVA, 2009):
Algoritmos de aprendizado supervisionado: o conjunto de dados possui uma variável pré-definida, a classe, e os registros são categorizados ou rotulados em relação a esta classe;
Algoritmos de aprendizado não supervisionado: o conjunto de dados não precisa de uma pré-categorização, ou seja, não é necessário determinar uma variável alvo.
Como este trabalho utilizou a classificação e regressão linear, ambos fazem uso do aprendizado supervisionado. Tanto na classificação como na regressão o conjunto de dados foi dividido em dois. O primeiro conjunto, consiste em 80% dos dados presentes no banco de dados original e é denominado dataTrain. Os 20% restantes foram chamados de dataTest. O dataTrain representa o conjunto de dados que o algoritmo irá utilizar para ser treinado. Com os modelos de classificação e regressão treinados, estes serão submetidos à base de dados dataTest para que sejam validados e sua eficiência seja verificada.
A divisão desses dados é realizada através da biblioteca caret, amplamente documentada e disponível em (KUHN, 2019). A divisão dos dados pode ser configurada pelo usuário, no caso foi escolhida a divisão 80% e 20% por ser uma divisão “padrão”.
Classificação – Árvore de decisão
As análises do pré-processamento indicaram a relevância de 17 atributos para a determinação do INSE. São eles: NU_TAXA_PARTICIPACAO, CO_UF_ESCOLA, TP_LOCALIZACAO_ESCOLA, NU_MATRICULAS, NU_PARTICIPANTES_NEC_ESP, NU_PARTICIPANTES, NU_TAXA_ABANDONO, NU_TAXA_REPROVACAO, PORTE_ESCOLA_NUM, PC_FORMACAO_DOCENTE, NU_TAXA_APROVACAO, DEPENDENCIA_ADMINISTRATIVA_NUM, CN_PERCENT, CH_PERCENT, LP_PERCENT, MT_PERCENT e RED_PERCENT.
Os atributos identificados anteriormente foram utilizados para classificar as escolas em determinados grupos socioeconômicos, devidamente contextualizados na seção 3 deste trabalho, o resultado final determina a eficiência do algoritmo para essa tarefa, no qual foi utilizado o aprendizado supervisionado.
A classificação foi realizada através de uma árvore de decisão, com a biblioteca rpart. A Figura 4 apresenta árvore de decisão com o resultado da classificação.
Os atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM representam, respectivamente, os estados do Brasil e o número referente a dependência administrativa das escolas (estadual, municipal, federal e privada). Como pode ser visto na Figura 4, esses dados aparecem na árvore mostrando especificamente quais estados ou dependências administrativas são considerados pelo modelo, isso acontecem por serem dados do no formato categórico.
Esse classificador possibilitou associar o grupo socioeconômico em função dos atributos CO_UF_ESCOLA e DEPENDENCIA_ADMINISTRATIVA_NUM. Ao analisar a árvore de decisão, fica evidente que o algoritmo considera a nota na área de conhecimento de língua portuguesa muito importante para realizar a classificação, o que motivou o segundo estudo baseado em regressão linear.
O resultado apresentado pela classificação não demonstra relevância devido ao seu baixo índice de acertos. Seu resultado foi exibido nesse trabalho por duas razões. A primeira é para gerar comparações em trabalhos relacionados, já que a inclusão de mais indicadores contextuais podem aumentar significativamente a precisão da árvore. A segunda razão é a motivação do uso da regressão linear, a ser apresentado na próxima seção, já que através da árvore de decisão é possível verificar que as notas em língua portuguesa, tem influência na determinação de certas características dos dados, e a regressão linear será utilizada para avaliar a influência da nota e da disciplina.
Regressão Linear
A utilização da regressão linear consiste em determinar o nota média de língua portuguesa das escolas com base nos mesmos atributos utilizados na classificação, porém aqui os dados de grupo INSE serão utilizados para ajudar a realizar a regressão, e os dados referentes às outras notas serão removidos, já que não faz muito sentido realizar a regressão linear sabendo previamente as notas em outras áreas de conhecimento.
A regressão linear foi realizada com a biblioteca stats, que já está presente no RStudio por padrão. Para avaliar as hipóteses levantadas na etapa de classificação, foi realizada a regressão de duas maneiras.
O primeiro modelo criado não considera o grupo socioeconômico, já o segundo considera. Os resultados das regressões são apresentados na Figura 5 e na Figura 6.
Os pontos em azul representam os dados reais provenientes do conjunto de dados dataTest e, os pontos em vermelho, indicam os valores previstos pela regressão linear.



É possível realizar uma comparação entre os dados reais e os previstos utilizando o R. Essa comparação fornece informações como menor e maior diferenças, a média e a mediana. A Tabela 1 e a Tabela 2 apresentam um sumário dos resultados, os resultados apresentados na Tabela 1 e Tabela 2 representam a nota em porcentagem. Tomando como exemplo a Tabela 2, o campo maior diferença: o resultado 7.993451 indica que o registro que possui maior discrepância de valor entre o dado real bruto de teste e o previsto, é de 79.93451.

Os resultados apresentados na Tabelas 1 e na Tabela 2 mostram como o desempenho do algoritmo melhora consideravelmente quando o INSE é utilizado para a criação do modelo de regressão.

Pós-processamento
Com o objetivo de apresentar os resultados obtidos na mineração de dados e transformá-los em conhecimento, foram gerados gráficos que auxiliam na compreensão do contexto dos dados utilizados. Os gráficos foram gerados utilizando o RStudio juntamente com a biblioteca ggplot, amplamente documentada e utilizada na geração de gráficos. A Figura 7 apresenta o gráfico de densidade de nota. Observa-se que na Figura 7 apresenta-se a ocorrência de notas maiores conforme troca-se de nível socioeconômico, destacando sua importância para o desempenho no exame.
A Figura 8 apresenta a distribuição por escola em cada um dos grupos socioeconômicos, o que oferece uma boa perspectiva da realidade socioeconômica nacional de forma geral.
Para o gráfico da Figura 9 é interessante notar que, apesar do desempenho bom para instituições federais, a quantidade de amostras é bem baixa, o que dificulta a comparação, mas mostra uma tendência já esperada de um desempenho superior para essas instituições.

resultados
A aplicação do processo de KDD na base de dados do ENEM de 2015 proporcionou o entendimento de cada fase desse processo.
Na fase de seleção e pré-processamento o Excel foi utilizado para ver os atributos presentes da tabela e seu dicionário de dados. A limpeza e adequação dos dados foi feita utilizando o R.
A fase de mineração consistiu na aplicação de duas tarefas, a classificação e a regressão linear. A classificação foi utilizada com o objetivo de determinar o grupo socioeconômico das escolas através de uma árvore de decisão. O método apresentou baixa eficiência, mas revelou através da árvore, uma certa influência das notas de língua portuguesa. Esse resultado motivou a aplicação de um algoritmo de regressão linear, que visava determinar as notas de língua portuguesa utilizando os indicadores contextuais da base de dados do ENEM de 2015.
Na fase de pós-processamento as informações são avaliadas através de gráficos, gerados através do software R e a biblioteca ggplot2.
A utilização do KDD, nesse trabalho, possibilitou uma análise eficiente dos mais de 15 mil registros. A árvore de decisão, apesar de não apresentar grande precisão, indicou a análise através de regressão linear, pois mesmo utilizando todas as notas nas cinco áreas de conhecimento, houve clara preferência pela nota em língua portuguesa na construção dos nós. Descobriu-se que as através das notas de língua portuguesa é possível determinar, com relativa eficiência, o grupo socioeconômico através da regressão linear. O que indica uma diferença considerável na qualidade do ensino dessa área de conhecimento em cada um dos grupos socioeconômicos.
É possível realizar outros trabalhos na base de dados do ENEM como:
descoberta de indicadores contextuais utilizando outras bases de dados por conta própria, como por exemplo a base do censo escola (INEP, 2019c), disponibilizada de forma aberta pelo INEP, que possui diversos indicadores contextuais, como por exemplo se a escola possui laboratório de informática;
Utilização de notas nas áreas de conhecimentos de anos anteriores para ajudar na classificação ou alguma outra tarefa de mineração de dados.
Referências
BAKER, R. S. J. de; CARVALHO, A. M. J. B. de. Minerac?a?o de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informa?tica na Educac?a?o. V.19, N.02. 2011.
BRASIL. Lei de Acesso a Informac?a?o – LAI (Lei 12527/2011). Disponi?vel em: <http://www2.camara.leg.br/transparencia/acesso-a-informacao>. Acesso em 09 de jul de 2019.
BRASIL. Portal Brasileiro de Dados Aberto. Disponível em <http://dados.gov.br/>. Accesso em 09 de jul de 2019.
CABENA, P.; HADJINIAN, P.; STADLER, R.; VERHEES, J.; ZANASI, A. Discovering data mining: from concept to implementation. Upper Saddle River, NJ, USA: Prentice-Hall, Inc. 1998.
CAMILO, C. O.; SILVA, J. C. DA. Minerac?a?o de dados: Conceitos, tarefas, me?todos e ferramentas. Universidade Federal de Goia?s (UFC), p. 1–29, 2009.
COSTA, E. et. al. Minerac?a?o de Dados Educacionais: Conceitos, Te?cnicas, Ferramentas e Aplicac?o?es. Jornada de Atualizac?a?o em Informa?tica na Educac?a?o – JAIE. 2012.
FAYYAD, U.; SHAPIRO, G. P.; SMYTH, P. From data mining to knowledge discovery in databases. AI Magazine, V. 17(3):37-54. 1996.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pra?tico. Elsevier Editora Ltda. 2005. Rio de Janeiro. ISBN: 85-352-1877-7.
HAN, J.; KAMBER, M.; PEI, J. Data Mining Concepts and Techniques. Elsevier Editora Ltda. 2012. USA.
INEP. Microdados do Enem por Escola. Brasília: Inep, 2019. Disponi?vel em: <http://portal.inep.gov.br/web/guest/microdados>. Acesso em: 29 de maio de 2019a.
INEP. Indicador de Nível Socioeconômico das Escolas de Educação Básica. Disponível em: <http://download.inep.gov.br/informacoes_estatisticas/indicadores_educacionais/2015/nota_tecnica/nota_tecnica_inep_inse_2015.pdf>. Acesso em 01 de jun de 2019b.
INEP. Censo Escolar - INEP. Disponível em: <http://inep.gov.br/web/guest/resultados-e-resumos>. Acesso em: 01 de jun de 2019c.
INEP. ENEM. Disponi?vel em: < http://portal.inep.gov.br/web/guest/enem>. Acessado em 28 de maio de 2019d.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of data mining and knowledge discovery. Oxford University Press, Inc., New York, NY, USA. 2002.
KUHN, M.; The Caret Package. Disponível em: < https://topepo.github.io/caret/>. Acesso em 01 de jun de 2019.
SILVA, L. A.; MORINO, A. H.; SATO, T. M. C. Pra?tica de Minerac?a?o de Dados no Exame Nacional do Ensino Médio. Anais dos Workshops do Congresso Brasileiro de Informa?tica na Educac?a?o. 2014.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM de 2015. Anais dos Workshops do VI Congresso Brasileiro de Informa?tica na Educac?a?o. 2017.

6
___________________________________________________________________________

Figura 1. Etapas do KDD
Fonte – Adaptado de Fayyad et al., 1996.

Figura 2. Distribuição das notas brutas de matemática, por escola

Figura 3. Distribuição das notas em faixas de matemática, por escola

Figura 4. Árvore de decisão com o resultado da classificação

Figura 5. Resultado da regressão linear sem o uso do INSE

Figura 6. Resultado da regressão linear com o uso do INSE

Tabela 1. Sumário dos resultados da regressão sem INSE
Menor diferença Maior diferença Mediana Média
0.00167 9.82585 1.58437 1.93200

Tabela 2. Sumário dos resultados da regressão com INSE
Menor diferença Maior diferença Mediana Média
0.000006 7.993451 1.281874 1.572777

Figura 7. Gráfico de densidade da nota em língua portuguesa e grupo socioeconômico

Figura 8. Distribuição de acordo com a nota em língua portuguesa e grupo socioeconômico

Figura 9. Gráfico de densidade da nota em língua portuguesa e dependência administrativa