Técnica de muestreo de valores extremos para el manejo de clases desbalanceadas para la identificación de operaciones bancarias fraudulentas usando machine learning

Fecha

2022

Formato del documento

Thesis

ORCID Autor

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad de Valparaíso

Ubicación

ISBN

ISSN

item.page.issne

item.page.doiurl

Facultad

Facultad de Ciencias

Departamento o Escuela

Facultad de Ciencias, Instituto de Estadística

Determinador

Recolector

Especie

Nota general

Magíster en Estadística. Universidad de Valparaíso. 2022.

Resumen

El fraude con tarjetas de crédito ha sido un problema que ha afectado a entidades financieras durante años, causando grandes pérdidas monetarias. Para detectar comportamientos anómalos o acciones sospechosas que incurren en pérdidas, el desarrollo de tecnologías de Machine Learning ha sido de gran importancia. Sin embargo, los conjuntos de datos disponibles para problemas de fraude bancario a menudo están altamente desbalanceados, lo que dificulta el aprendizaje de patrones de la clase minoritaria. Para abordar este problema, se han utilizado técnicas de submuestreo y sobremuestreo para equilibrar las clases. No obstante, a menudo se hace un equilibrio de clases en la fase de preprocesamiento antes de separar los datos en conjuntos de entrenamiento y test, lo que puede generar una correlación entre los datos y un rendimiento engañoso al evaluar los modelos. Por lo tanto, el objetivo de este trabajo es identificar errores en la implementación de técnicas de submuestreo y sobremuestreo para equilibrar clases en conjuntos de datos altamente desbalanceados y proponer una nueva técnica de submuestreo que considera los valores extremos de ambas clases utilizando la distancia de Mahalanobis. Esta medida de distancia tiene en cuenta la variabilidad de los datos y se utiliza comúnmente en problemas de clasificación para medir la similitud entre dos grupos. Nuestros resultados demuestran una mejora significativa en el rendimiento en comparación con las técnicas de balanceo de clases Smote, NearMiss y Submuestreo Aleatorio, alcanzando una precisión del 97% y un recall del 88%.

Descripción

Lugar de Publicación

Valparaíso

Auspiciador

Palabras clave

OPERACIONES BANCARIAS, FRAUDE INFORMATICO

Licencia

Colecciones