Reconocimiento multimodal de emociones utilizando conjuntos de datos en ambientes no controlados

Fecha

2023-12

Formato del documento

Thesis

ORCID Autor

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad de Valparaíso

Ubicación

ISBN

ISSN

item.page.issne

item.page.doiurl

Facultad

Facultad de Ingeniería

Departamento o Escuela

Escuela de Ingeniería Informática

Determinador

Recolector

Especie

Nota general

Título de Ingeniero Civil En Informática

Resumen

El reconocimiento multimodal de emociones se centra en identificar las emociones de un sujeto en situaciones específicas, utilizando inteligencia artificial en diversas modalidades, como imagen, audio y texto. Este Trabajo de Título está basado en el proyecto “An Assessment of In-the-wild Datasets for Multimodal Emotion Recognition”, que resalta la necesidad de unificar, limpiar y transformar conjuntos de datos para re-entrenar un modelo de Deep Learning. El objetivo es mejorar las predicciones, generar visualizaciones y realizar un análisis comparativo con los resultados del proyecto base, evaluando así si se logra mejorar el reconocimiento multimodal de emociones en entornos no controlados. Se presenta un marco de trabajo que integra información de las modalidades de imágenes faciales, audio y texto. Esto se logra mediante el uso de técnicas de Deep Learning para adaptar modelos pre-entrenados a conjuntos de datos no controlados. Este enfoque será evaluado mediante experimentos utilizando la base de datos llamada MERDWild, la cual fue creada mediante la unificación de los conjuntos de datos in-the-wild llamados AFEW, AffWild2 y MELD, para demostrar su eficacia en el reconocimiento multimodal de emociones, utilizando MAFW como dataset de pruebas. Los resultados finales revelaron los desempeños de los modelos específicos para cada una de las tres modalidades, así como los desempeños de las combinaciones de modalidades en el conjunto de validación y en el conjunto de pruebas MAFW. Las técnicas de Deep Learning utilizadas para los modos de imágenes faciales, audio y texto son VGG19, ResNet50 y DialogXL, respectivamente. Para fusionar las predicciones obtenidas de cada uno de los modelos se utilizó el método de fusión EmbraceNet+. Los resultados evidencian la presencia de sobreentrenamiento y se sugieren posibles soluciones para evitarlo. Adicionalmente, se generó una base de datos homogénea y de alta calidad compuesta por 15.873 archivos de audio, 905.281 imágenes faciales y 15.321 frases. Todos estos elementos superaron los criterios de calidad establecidos, entre ellos se encuentra brillo, contraste y resolución en el caso de las imágenes faciales, nivel peak, distorsión armónica total y promedio de nivel de potencia en audio y en texto el uso de un filtro semántico. Este trabajo proporciona una visión integral del reconocimiento multimodal de emociones, desde la recopilación de datos hasta las visualizaciones de los resultados finales.

Descripción

Lugar de Publicación

Valparaíso

Auspiciador

Palabras clave

MULTIMODAL, INTELIGENCIA ARTIFICIAL, DEEP LEARNING

Licencia

Atribución-NoComercial-CompartirIgual 3.0 Chile (CC BY-NC-SA 3.0 CL)