Reconocimiento multimodal de emociones utilizando conjuntos de datos en ambientes no controlados

dc.contributor.advisorAguilera Faraco, Ana
dc.contributor.authorMartínez Gullé, Facundo Vicente
dc.coverage.spatialValparaíso
dc.date.accessioned2024-07-17T13:58:36Z
dc.date.available2024-07-17T13:58:36Z
dc.date.issued2023-12
dc.description.abstractEl reconocimiento multimodal de emociones se centra en identificar las emociones de un sujeto en situaciones específicas, utilizando inteligencia artificial en diversas modalidades, como imagen, audio y texto. Este Trabajo de Título está basado en el proyecto “An Assessment of In-the-wild Datasets for Multimodal Emotion Recognition”, que resalta la necesidad de unificar, limpiar y transformar conjuntos de datos para re-entrenar un modelo de Deep Learning. El objetivo es mejorar las predicciones, generar visualizaciones y realizar un análisis comparativo con los resultados del proyecto base, evaluando así si se logra mejorar el reconocimiento multimodal de emociones en entornos no controlados. Se presenta un marco de trabajo que integra información de las modalidades de imágenes faciales, audio y texto. Esto se logra mediante el uso de técnicas de Deep Learning para adaptar modelos pre-entrenados a conjuntos de datos no controlados. Este enfoque será evaluado mediante experimentos utilizando la base de datos llamada MERDWild, la cual fue creada mediante la unificación de los conjuntos de datos in-the-wild llamados AFEW, AffWild2 y MELD, para demostrar su eficacia en el reconocimiento multimodal de emociones, utilizando MAFW como dataset de pruebas. Los resultados finales revelaron los desempeños de los modelos específicos para cada una de las tres modalidades, así como los desempeños de las combinaciones de modalidades en el conjunto de validación y en el conjunto de pruebas MAFW. Las técnicas de Deep Learning utilizadas para los modos de imágenes faciales, audio y texto son VGG19, ResNet50 y DialogXL, respectivamente. Para fusionar las predicciones obtenidas de cada uno de los modelos se utilizó el método de fusión EmbraceNet+. Los resultados evidencian la presencia de sobreentrenamiento y se sugieren posibles soluciones para evitarlo. Adicionalmente, se generó una base de datos homogénea y de alta calidad compuesta por 15.873 archivos de audio, 905.281 imágenes faciales y 15.321 frases. Todos estos elementos superaron los criterios de calidad establecidos, entre ellos se encuentra brillo, contraste y resolución en el caso de las imágenes faciales, nivel peak, distorsión armónica total y promedio de nivel de potencia en audio y en texto el uso de un filtro semántico. Este trabajo proporciona una visión integral del reconocimiento multimodal de emociones, desde la recopilación de datos hasta las visualizaciones de los resultados finales.
dc.facultadFacultad de Ingeniería
dc.identifier.urihttps://repositoriobibliotecas.uv.cl/handle/uvscl/14093
dc.language.isoes
dc.publisherUniversidad de Valparaíso
dc.rightsAtribución-NoComercial-CompartirIgual 3.0 Chile (CC BY-NC-SA 3.0 CL)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/cl/
dc.subjectMULTIMODAL
dc.subjectINTELIGENCIA ARTIFICIAL
dc.subjectDEEP LEARNING
dc.titleReconocimiento multimodal de emociones utilizando conjuntos de datos en ambientes no controlados
dc.typeThesis
uv.catalogadorMAQ
uv.departamentoEscuela de Ingeniería Informática
uv.nombre.archivoMartínez Gullé, Facundo Vicente. RECONOCIMIENTO MULTIMODAL DE EMOCIONES UTILIZANDO CONJUNTOS DE DATOS EN AMBIENTES NO CONTROLADOS
uv.notageneralTítulo de Ingeniero Civil En Informática
uv.profesorinformanteMellado Carreño, Diego

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Martínez Gullé, Facundo Vicente. RECONOCIMIENTO MULTIMODAL DE EMOCIONES UTILIZANDO CONJUNTOS DE DATOS EN AMBIENTES NO CONTROLADOS.pdf
Tamaño:
12.25 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
349 B
Formato:
Item-specific license agreed upon to submission
Descripción: