Técnica de muestreo de valores extremos para el manejo de clases desbalanceadas para la identificación de operaciones bancarias fraudulentas usando machine learning
Fecha
2022
Autores
Profesor Guía
Formato del documento
Thesis
ORCID Autor
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Valparaíso
Ubicación
ISBN
ISSN
item.page.issne
item.page.doiurl
Facultad
Facultad de Ciencias
Departamento o Escuela
Facultad de Ciencias, Instituto de Estadística
Determinador
Recolector
Especie
Nota general
Magíster en Estadística. Universidad de Valparaíso. 2022.
Resumen
El fraude con tarjetas de crédito ha sido un problema que ha afectado a entidades financieras durante años, causando grandes pérdidas monetarias. Para detectar comportamientos anómalos o acciones sospechosas que incurren en pérdidas, el desarrollo de tecnologías de Machine Learning ha sido de gran importancia. Sin embargo, los conjuntos de datos disponibles para problemas de fraude bancario a menudo están altamente desbalanceados, lo que dificulta el aprendizaje de patrones de la clase minoritaria. Para abordar este problema, se han utilizado técnicas de submuestreo y sobremuestreo para equilibrar las clases. No obstante, a menudo se hace un equilibrio de clases en la fase de preprocesamiento antes de separar los datos en conjuntos de entrenamiento y test, lo que puede generar una correlación entre los datos y un rendimiento engañoso al evaluar los modelos. Por lo tanto, el objetivo de este trabajo es identificar errores en la implementación de técnicas de submuestreo y sobremuestreo para equilibrar clases en conjuntos de datos altamente desbalanceados y proponer una nueva técnica de submuestreo que considera los valores extremos de ambas clases utilizando la distancia de Mahalanobis. Esta medida de distancia tiene en cuenta la variabilidad de los datos y se utiliza comúnmente en problemas de clasificación para medir la similitud entre dos grupos. Nuestros resultados demuestran una mejora significativa en el rendimiento en comparación con las técnicas de balanceo de clases Smote, NearMiss y Submuestreo Aleatorio, alcanzando una precisión del 97% y un recall del 88%.
Descripción
Lugar de Publicación
Valparaíso
Auspiciador
Palabras clave
OPERACIONES BANCARIAS, FRAUDE INFORMATICO