Aprendizagem Estatística Aplicada à Previsão de Default de Crédito
Resumo
Esta pesquisa tem por objetivo comparar a capacidade preditiva das principais técnicas de aprendizagem estatística atualmente utilizadas nacional e internacionalmente para tratamento do problema de risco de crédito, analisando-as à luz de sua eficiência preditiva.
METODOLOGIA
No presente estudo foram utilizados os dados da base German Credit Dataset. As estimações foram obtidas à partir do pacote e1071 aplicado ao software estatístico R®. Foram testadas, comparativamente, as técnicas: Análise Discriminante, Regressão Logística, Redes Bayesianas Naive Bayes, kdB-1, kdB-2, SVC e SVM. Como ponto de corte para Análise Discriminante, Regressão Logística, Redes Bayesianas Naive Bayes, kdB-1, kdB-2 foi empregada a curva ROC - Receiver Operating Characteristic. Os resultados foram comparados com base na acurácia (medida pelo método ACC) e pelo critério de custo pelo erro (medido com base nos critérios trazidos pela base de dados) e os resultados foram apresentados sob o formato de uma matriz de confusão e validados pelo método k-Fold Cross-Validation.
RESULTADOS E CONCLUSÕES
Analisando os resultados das técnicas o SVM apresentou o maior número médio de acertos, obtendo índice de acurácia 86.6%, bem como as maiores médias de acerto em termos de previsão dentre todos os modelos, com aproximadamente 85,5% de acertos na previsão de default.
Pela análise do custo total é possível verificar que o custo do erro do SVM foi de 50.46, sendo que 41.44% desse custo foi produzido por erros de falso positivo e 58.56% do custo foi produzido por erro de falso negativo. Este foi o menor custo dentre os custos produzidos pelas técnicas estudadas, sendo aproximadamente 42% menor que o segundo colocado na análise. Para ambas as métricas (ACC e custos do erro) observou-se a superioridade do método SVM – Support Vector Machine, sugerindo que este método apresenta características que potencializam o seu poder preditivo para o caso estudado. Tais resultados corroboram com indicações de autores que mostram que a superioridade do SVM se deve ao fato de que métodos ensemble, como é o caso do SVM, em dados desbalanceados.
IMPLICAÇÕES PRÁTICAS
Com base nos resultados é possível verificar que a evolução das técnicas de aprendizagem estatística tem contribuído para a maximização dos resultados de classificação, sendo este o problema central da análise de crédito. Pela quantidade de estudos realizados internacionalmente e destacados na bibliografia, este se mostra um campo fértil para o desenvolvimento de pesquisas futuras, especialmente para comparação dos resultados alcançados por este estudo. Especificamente sobre o SVM, os resultados corroboram com estudos que indicam boa aderência de tal modelo para situações reais nas quais o banco de dados a ser classificado é desbalanceado.
PALAVRAS-CHAVE
Risco de crédito, Aprendizagem estatística, previsão de default.
STATISTICAL LEARNING APPLIED TO CREDIT DEFAULT PREDICTION
OBJECTIVE
This research compares the predictive potential of the main statistical learning techniques currently used in both nationally and internationally extent for the treatment of credit risk problem, by analyzing their predictive efficiency.
METHODOLOGY
In this study we have used the data base nominated German Credit Dataset. The estimates were obtained from e1071 package applied in R®. The comparatively seven techniques were tested: linear discriminant analysis, logistic regression, Naive Bayes, KDB-1, KDB-2, SVC and SVM. To discriminant analysis, logistic regression, Naive Bayes, KDB-1, KDB-2 employed the ROC curve - Receiver Operating Characteristic as a cut-off point. The results were compared based on accuracy (measured by the ACC technique) and on error cost criterion (measured by criteria observed in the database studied) and the results were presented in the confusion matrix format and validated by the k-fold Cross Validation technique.
RESULTS AND CONCLUSIONS
The results showed the highest average number of SVM technique hits, getting the highest accuracy (86.6%), as well as the biggest hits in terms of average forecast among all the other models with
approximately 85.5% of correct default prediction.
By the total cost results, we can verify that the SVM error cost was 50.46, with 41.44 percent of this cost produced by false positive errors and 58.56% by false negative error. It was the lowest cost among the costs produced by the studied techniques, approximately 42% lower than the second one.
For both metrics (ACC and error costs) this study observed superiority of SVM method suggesting this method has characteristics that enhance the predictive power for the case studied. These results corroborate with results of authors that shows the SVM’s superiority is due to the ensemble methods such as SVM, by their nature, are more effective for unbalanced data.
PRACTICAL IMPLICATIONS
Based on the results is possible to check that the evolution of the statistical learning techniques have contributed to the maximization of classification results, being this the central problem of credit analysis. The amount of studies conducted internationally and showed in the bibliographical study, this is a fertile field to the future research development, especially to compare the results obtained by this study. About the SVM method, the results corroborate studies that indicate good adhesion of such model to real situations in which the dataset’s unbalanced.
KEYWORDS
Credit Risk, Statistical Learning, Default Prediction.
Referências
ANNIBAL; C. A., & KOYAMA, S. M. (2011). Pesquisa trimestral de condições de crédito no Brasil. Trabalhos para discussão, Brasília, n. 245, p. 1-62, Jul. 2011.
BACHE, K., & LICHMAN, M. (2013). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science, Disponível em: http://archive.ics.uci.edu/ml.
BANCO CENTRAL DO BRASIL. Série histórica do sistema financeiro nacional: Operações de crédito do sistema financeiro. 2014. Disponível em: http://www.bcb.gov.br/?SERIESFN. Acesso em: 10/02/2014.
BLUHM, C., OVERBECK, L., & WAGNER, C. (2003). An introduction to credit risk modeling. London: Chapman & Hall.
BROWN, I., & MUES, C. (2012). An experimental comparison of classification algorithms for imbalanced credit scoring data sets. Expert Systems with Applications. Vol. 39, pages 3446–3453.
CHUNG, H. Y., HO, C. H., & HSU, C. C. (2011). Support vector machines using Bayesian-based approach in the issue of unbalanced classifications. Expert Systems with Applications. Num. 9, Vol. 38, pages 11447–11452.
DANENAS, P., GARSVA, G., & SAULIUS, G. (2011). Credit Risk Evaluation Model Development Using Support Vector Based Classifiers. Procedia Computer Science. Vol. 4, pages 1699–1707.
DUAN, J. C., & SHRESTHA, K. (2011). Statistical Credit Rating Metholds. Global Credit Review, N. 1. Vol. 1, pages 43-64.
GARCÍA, F., GIMÉNEZ, V., & GUIJARRO, F. (2013). Credit risk management: A multicriteria approach to assess creditworthiness. Mathematical and Computer Modelling, v. 57, p. 2009-2015.
HASTIE, T., TIBSHIRANI, R., &FRIEDMAN, J. (2008). The Elements of Statistical Learning: Data Mining, Inference and Prediction. Springer. Disponível em: . Acesso em: 21/10/2013
ISCOE, I., KREININ, A., MAUSSER, H., & ROMANKO, O. (2012). Portfolio credit-risk optimization. Journal of Banking & Finance. Vol. 36, nº 6, pages 1604–1615.
JACKS, K. (2008). Capital shocks, bank asset allocation, and the revised Basel Accord. Review of Financial Economics. Vol. 17, Issue 2, pages 79-91.
JAMES, G., WITTEN, D., HASTIE, T., & TIBSHIRANI, R. (2013). An introduction to statistical learning: with application in R. New York: Springer.
LOUZADA-NETO, F., & ARA, A. (2012). Bagging k-dependence probabilistic networks: An alternative powerful fraud detection tool. Expert Systems with Applications, v. 39, n. 14, p. 11583-11592.
LOUZADA-NETO, F., FERREIRA-SILVA, P. H., & DINIZ, C. A. R. (2012). On the impact of disproportional samples in credit scoring models: An application to a Brazilian bank data Expert Systems with Applications, v. 39, p. 8071–8078.
LU, F. Q., HUANG, M., CHING, W. K., & SIU, T. K. (2013). Credit portfolio management using two-level particle swarm optimization. Information Sciences, Volume 237, Num. 10, pages 162-175.
MATIAS, A. B. (2007). Finanças corporativas de curto prazo. Vol. 1. São Paulo: Atlas.
MCLACHLAN, G. (2001). Multivariate Analysis: Classification and Discrimination. International Encyclopedia of the Social & Behavioral Sciences, pages 10214-10218.
NAGARAJAN, R., SCUTARI, M., & LÈBRE, S. (2013). Bayesian Networks in R with Applications in Systems Biology. Nova York: Springer.
PASCUAL, M. B., MARTÍNEZ, A. M. & ALAMILLOS, A. M. (2013). Redes bayesianas aplicadas a problemas de credit scoring. Una aplicación práctica. Cuadernos de Economía, In Press.
R DEVELOPMENT CORE TEAM. (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Disponível em: www.R-project.org
SAITA, F. (2007). Value at Risk and Bank Capital Management: Risk adjusted performance, capital management and capital allocation decision making. San Diego: Elsevier.
Apontamentos
- Não há apontamentos.
Este trabalho está licenciado sob uma Licença Creative Commons Attribution 3.0 .
_______________
Revista de Finanças Aplicadas
ISSN: 2176-8854
Contador Estatístico
Indexadores e diretórios
Adicionais
Gale Cengage Learning
Latindex - Sistema Regional de Información en Línea para Revistas Científicas de América Latina, el Caribe, España y Portugal
Livre - Revistas de Livre Acesso
Sumários - Sumários de Revistas Brasileiras
PKP - Public Knowledge Project