Aplicação de Técnicas de Aprendizado de Máquina para Predição de Risco de Evasão Escolar em Instituições Públicas de Ensino Superior no Brasil
Resumo
As instituições públicas de ensino superior do Brasil enfrentam taxas de evasão anual preocupantes. Torna-se de extrema importância, então, o reconhecimento do perfil de alunos com maior probabilidade de evadir, levando em consideração características dos estudantes e das universidades em que eles se encontram matriculados, para que planos de medidas públicas sejam construídos de maneira a reduzir estas taxas. Nesse contexto, o presente trabalho tem como objetivo a identificação dos padrões característicos de alunos com maior tendência a abandonar o ensino público superior, assim como a identificação dos atributos mais determinantes nestes padrões. Para isso, foram aplicadas cinco técnicas de aprendizado de máquina nos dados de educação superior do INEP (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira): Naive Bayes, K-Nearest Neighbors, Árvores de Decisão, Random Forest e Redes Neurais. Dentre elas, o melhor resultado foi obtido pela técnica Random Forest, que alcançou uma taxa de acerto de aproximadamente 80% das previsões de evasão. O modelo construído indicou que algumas das características mais determinantes na evasão de um aluno são a idade, a participação em atividades extracurriculares e a carga horária total do curso. A principal contribuição do presente trabalho vem na forma da identificação das variáveis mais importantes para a previsão de evasão. Espera-se que os resultados aqui apresentados possibilitem o desenvolvimento de estratégias de redução de evasão focadas no suporte a estudantes que se encontram nos padrões característicos identificados.
Palavras-chave
Texto completo:
PDFReferências
Ambiel, R. A. (2015). Construção da Escala de Motivos para Evasão do Ensino Superior. Avaliação Psicológica, 14(1), 41-52. doi:10.15689/ap.2015.1401.05 [GS Search]
Araque, F., Roldán, C., & Salguero, A. (2009). Factors influencing university drop out rates. Computers & Education, 563-574. doi:10.1016/j.compedu.2009.03.013 [GS Search]
Baker, R. S., Isotani, S., & Carvalho, A. M. (2011, August 24). Mineração de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informática na Educação, 19(2), 3-13. doi:10.5753/RBIE.2011.19.02.03 [GS Search]
Bastos, A., & Gomes, C. (2016). A evasão escolar no Ensino Técnico - Um estudo de caso do CEFET-RJ. Educação e Cultura Contemporânea, 13(32), 217-234. doi:10.5935/2238-1279.20160049 [GS Search]
Bonaldo, L., & Pereira, L. N. (2016). Dropout: Demographic profile of Brazilian university students. Procedia - Social and Behavioral Sciences, 228, 138-143. doi:10.1016/j.sbspro.2016.07.020 [GS Search]
Breiman, L. (2001, October). Random Forests. (R. E. Schapire, Ed.) Machine Learning, 45, 5-32. doi:10.1023/A:1010933404324 [GS Search]
Bruce, P., & Bruce, A. (2017). Practical Statistics for Data Scientists: 50 Essential Concepts Using R and Python. Sebastopol: O'Reilly. [GS Search]
Costa, S. L., & Dias, S. M. (2016). A permanência no ensino superior e as estratégias institucionais de enfrentamento da evasão. Jornal de Políticas Educacionais, 9(17/18), 51-60. doi:10.5380/jpe.v9i17/18.38650 [GS Search]
daCosta, F. J., SouzaBispo, M. d., & Pereira, R. d. (2018, March). Dropout and retention of undergraduate students in management: a study at a Brazilian Federal University. RAUSP Management Journal, 53(1), 74-85. doi:10.1016/j.rauspm.2017.12.007 [GS Search]
Delen, D. (2011, August 12). Predicting Student Attrition with Data Mining Methods. Journal of College Student Retention: Research, Theory & Practice, 13(1), 17-35. doi:10.2190/CS.13.1.b [GS Search]
Downey, A. (2012). Think Bayes: Bayesian statistics in python. Needham, Massachusetts, Estados Unidos da América: Green Tea Press. Fonte: https://greenteapress.com/wp/think-bayes/, Acesso em 10 de agosto de 2020. [GS Search]
Fernández, A., Galar, M., & Krawczyk, B. (2018). Learning from Imbalanced Data Sets. Gewerbestrasse, Switzerland: Springer. doi:10.1007/978-3-319-98074-4 [GS Search]
Ferreira, G. (2015). Investigação acerca dos fatores determinantes para a conclusão do Ensino Fundamental utilizando Mineração de Dados Educacionais no Censo Escolar da Educação Básica do INEP 2014. Workshops do IV Congresso Brasileiro de Informática na Educação (pp. 1034-1043). Maceió: Sociedade Brasileira de Computação – SBC. doi:10.5753/cbie.wcbie.2015.1034 [GS Search]
Filho, R. L., Motejunas, P. R., Hipólito, O., & Lobo, M. B. (2007, September). A Evasão no Ensino Superior Brasileiro. Cadernos de Pesquisa, 37(132), 641-659. doi:10.1590/S0100-15742007000300007 [GS Search]
Gardner, M., & Dorling, S. R. (1998, August 1). Artificial neural networks (The multilayer perceptron)—A review of applications in the atmospheric sciences. Atmospheric Environment, 32(14-15), 2627-2636. doi:10.1016/S1352-2310(97)00447-0 [GS Search]
Gislason, P., Benediktsson, J., & Sveinsson, J. (2006, March). Random Forests for land cover classification. Pattern Recognition Letters, 27(4), 294-300. doi:10.1016/j.patrec.2005.08.011 [GS Search]
Granik, M., & Mesyura, V. (2017). Fake news detection using naive Bayes classifier. 2017 IEEE First Ukraine Conference on Electrical and Computer Engineering (UKRCON) (pp. 900-903). Kyiv: IEEE. doi:10.1109/UKRCON.2017.8100379 [GS Search]
INEP. (2019, January 20). Acesso em 20 de janeiro de 2019, disponível em Portal INEP: http://portal.inep.gov.br/web/guest/dados
Instituto nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. (2018, September 20). Sinopse Estatística da Educação Superior 2017. Acesso em 10 de agosto de 2020, disponível em Inep: http://inep.gov.br/sinopses-estatisticas-da-educacao-superior
Lamers, J., Santos, B., & Toassi, R. (2017). Retenção e evasão no ensino superior público: Estudo de caso em um curso norturno de odontologia. Educação em Revista, 33, 1-26. doi:10.1590/0102-4698154730 [GS Search]
Lerner, B., Levinstein, M., Rosenberg, B., Guterman, H., Dinstein, I., & Romem, Y. (1994). Feature Selection and Chromosome Classification Using a Multilayer Perceptron Neural Network. Proceedings of 1994 IEEE International Conference on Neural Networks (ICNN'94) (pp. 3540-3545). Orlando: Institute of Electrical and Electronics Engineers. doi:10.1109/ICNN.1994.374905 [GS Search]
Manhães, L., Cruz, S., Costa, R., Zavaleta, J., & Zimbrão, G. (2011, November 21). Previsão de Estudantes com Risco de Evasão Utilizando Técnicas de Mineração de Dados. Simpósio Brasileiro de Informática na Educação, 150-159. Fonte: https://www.br-ie.org/pub/index.php/sbie/article/view/1585 [GS Search]
Manrique, R., Casanova, M. A., Nunes, B. P., Nurmikko-Fuller, T., & Marino, O. (2019). An Analysis of Student Representation, Representative Features and Classification Algorithms to Predict Degree Dropout. Proceedings of the 9th International Conference on Learning Analytics & Knowledge (pp. 401–410). New York, NY, USA: Association for Computing Machinery. doi:10.1145/3303772.3303800 [GS Search]
Martins, L. C., Carvalho, R. N., & Carvalho, R. S. (2017). Early prediction of college attrition using data mining. 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA) (pp. 1075-1078). Cancun: IEEE. doi:10.1109/ICMLA.2017.000-6 [GS Search]
Meedech, P., Iam-On, N., & Boongoen, T. (2016). Prediction of Student Dropout Using Personal Profile and Data Mining Approach. In P.-A. S. Lavangnananda K. (Ed.), Intelligent and Evolutionary Systems. Proceedings in Adaptation, Learning and Optimization (Vol. 5, pp. 143-155). Springer. doi:10.1007/978-3-319-27000-5_12 [GS Search]
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill Science/Engineering/Math. [GS Search]
Müller, A., & Guido, S. (2017). Introduction to Machine Learning with Python: A GUIDE FOR DATA SCIENTISTS. Em A. Müller, & S. Guido, Introduction to Machine Learning with Python: A GUIDE FOR DATA SCIENTISTS (pp. 68-74,282-284). Sebastopol: O'Reilly. [GS Search]
Nascimento, R., Junior, G., & Roberta, F. (2018, July). Mineração de Dados Educacionais: Um Estudo Sobre Indicadores da Educação em Bases de Dados do INEP. RENOTE - Revista Novas Tecnologias na Educação , 16(1), 1-11. doi:10.22456/1679-1916.85989 [GS Search]
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12(85), 2825−2830. Fonte: https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html [GS Search]
Pinheiro, M., Silva, J., & Souza, B. (2018). Aprendizado de Máquina Aplicado à Análise de Evasão no Ensino Superior. Computer on the beach, 512-521. Fonte: https://siaiap32.univali.br/seer/index.php/acotb/article/view/12810 [GS Search]
Prestes, E. M., & Fialho, M. G. (2018). Evasão na educação superior e gestão institucional: o caso da Universidade Federal da Paraíba. Ensaio: Avaliação e Políticas Públicas em Educação, 26(100), 869-889. doi:10.1590/s0104-40362018002601104 [GS Search]
Reis, V., Cunha, P., & Spritzer, I. (2012). Evasão no Ensino Superior de Engenharia no Brasil: Um estudo de caso no Cefet/RJ. XL Congresso Brasileiro de Educação em Engenharia. [GS Search]
Rigo, S. J., Cambruzzi, W., Barbosa, J. L., & Cazella, S. i. (2014). Aplicações de Mineração de Dados Educacionais e Learning Analytics com foco na evasão escolar: oportunidades e desafios. Revista Brasileira de Informática na Educação, 22(1). doi:10.5753/RBIE.2014.22.01.132 [GS Search]
Rodrigues, F. S., Brackmann, C. P., & Barone, D. A. (2015). Estudo da Evasão no Curso de Ciência da Computação da UFRGS. Revista Brasileira de Informática na Educação, 23(1), 97-109. doi:10.5753/RBIE.2015.23.01.97 [GS Search]
Sales, A., Balby, L., & Cajueiro, A. (2016, August). Exploiting Academic Records for Predicting Student Drop Out: a case study in Brazilian higher education. Journal of Information and Data Management, 7(2), 166-180. Fonte: https://periodicos.ufmg.br/index.php/jidm/article/view/343 [GS Search]
Santos, K. J., Menezes, A. G., Carvalho, A. B., & Montesco, C. A. (2019). Supervised Learning in the Context of Educational Data Mining to Avoid University Students Dropout. 2019 IEEE 19th International Conference on Advanced Learning Technologies (ICALT) (pp. 207-208). Maceió: IEEE. doi:10.1109/ICALT.2019.00068 [GS Search]
Santos, R., Siebra, C., & Oliveira, E. (2014). Uma Abordagem Temporal para Identificação Precoce de Estudantes de Graduação a Distância com Risco de Evasão em um AVA utilizando Árvores de Decisão. Congresso Brasileiro de Informática na Educação (pp. 262-271). Dourados: Sociedade Brasileira de Computação – SBC. doi:10.5753/cbie.wcbie.2014.262 [GS Search]
Sarker, F., Tiropanis, T., & Davis, H. C. (2014). Linked data, data mining and external open data for better prediction of at-risk students. 2014 International Conference on Control, Decision and Information Technologies (CoDIT) (pp. 652-657). Metz: IEEE. doi:10.1109/CoDIT.2014.6996973 [GS Search]
Silva, J., & Imran, H. (2015, December). Um estudo sobre as variáveis para predição de alunos não concluintes em cursos suportados por Ambientes Virtuais de Ensino e Aprendizagem. RENOTE - Revista Novas Tecnologias na Educação, 13(2). doi:10.22456/1679-1916.61427 [GS Search]
Vlahou, A., Schorge, J., Gregory, B., & Coleman, R. (2003). Diagnosis of Ovarian Cancer Using Decision Tree Classification of Mass Spectral Data. Journal of Biomedicine and Biotechnology, 308-314. Fonte: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC521504/ [GS Search]
Zhang, Y., Oussena, S., Clark, T., & Kim, H. (2010). Use Data Mining to Improve Student Retention in Higher Education - A Case Study. ICEIS 2010 - Proceedings of the 12th International Conference on Enterprise Information Systems, (pp. 190-197). Madeira. Fonte: https://dblp.uni-trier.de/db/conf/iceis/iceis2010-1.html [GS Search]
DOI: https://doi.org/10.5753/rbie.2020.28.0.838
DOI (PDF): https://doi.org/10.5753/rbie.2020.28.0.838
____________________________________________________________________________
Revista Brasileira de Informática na Educação (RBIE) (ISSN: 1414-5685; online: 2317-6121)
Brazilian Journal of Computers in Education (RBIE) (ISSN: 1414-5685; online: 2317-6121)