Mikel Galar Idoate, investigador del Instituto de Smart Cities (ISC) de la Universidad Pública de Navarra (UPNA), ha obtenido una Beca Leonardo, concedida por la Fundación BBVA, para promover el desarrollo de modelos de inteligencia artificial más justos y éticos que no discriminen a ciertos grupos de población. El también profesor del Departamento de Estadística, Informática y Matemáticas desarrollará en la institución académica navarra y a lo largo de dieciocho meses el proyecto, enmarcado en el campo de las ciencias de la computación y ciencia de datos y centrado en combatir la transferencia de sesgos demográficos de los conjuntos de datos a los modelos de “machine learning” (aprendizaje automático). Este programa de apoyo a la ciencia y la cultura de excelencia ha recibido en la edición de este año, la número XI, un total de 1.423 proyectos de toda España, de los que se han seleccionado 58 altamente innovadores, lo que supone una tasa de éxito del 4%, un indicador de la alta competitividad de la convocatoria.

El proyecto parte del hecho de que los modelos de inteligencia artificial entrenados con grandes conjuntos de datos “in the wild” (ITW) (aquellos que provienen del mundo real, tal y como existen de manera natural, sin manipulación o filtrado previo) pueden contener sesgos demográficos que discriminan a ciertos grupos de población. Así, en el caso de que, en un conjunto de fotos “in the wild”, haya muchas más imágenes de personas de un grupo demográfico, como, por ejemplo, jóvenes y de piel clara, el modelo aprenderá a reconocer mejor a los individuos de dicho grupo. Esto puede llevar a que el modelo sea menos preciso al identificar gentes de otros grupos como personas mayores o de piel oscura.

 “En un trabajo reciente —indica Mikel Galar—, en el grupo de investigación que dirijo, estudiamos las formas de analizar los sesgos demográficos en los conjuntos de datos. Para ello, propusimos una metodología para medir los diferentes tipos de sesgos en un conjunto de datos mediante dos pasos: primero, obteniendo su perfil demográfico a través de un modelo auxiliar; y segundo, aplicando métricas capaces de resumir dicho perfil en valores fácilmente interpretables. Sin embargo, esta metodología permite medir el sesgo en los conjuntos de datos, pero no determinar hasta qué punto estos se transfieren a los modelos entrenados con dichos conjuntos de datos. Este es precisamente el problema que aborda el proyecto que ha logrado la Beca Leonardo”.

Por tanto, el objetivo de este proyecto consiste en desarrollar “una metodología completa para evaluar la transferencia de sesgos de los conjuntos de datos a los modelos de inteligencia artificial”. Durante el proyecto, el equipo investigador liderado por Mikel Galar utilizará el problema del reconocimiento de expresiones faciales (FER, por sus siglas en inglés) como caso de estudio, ya que cuenta con “una base de datos única”, generada por dicho grupo en un proyecto anterior, “sin sesgos de base”. “Esta base de datos permite estudiar la transferencia de sesgos de forma precisa”, añade.

Uno de los investigadores más citados del mundo

Mikel Galar (Pamplona, 1986) es ingeniero informático (2009) y doctor (2012) con premio extraordinario por la Universidad Pública de Navarra (UPNA). Actualmente, trabaja como profesor titular del área de Ciencias de la Computación e Inteligencia Artificial en la UPNA, donde también dirige la Cátedra Tracasa de Ciencias de la Computación e Inteligencia Artificial y lidera el grupo de investigación Artificial Intelligence and Machine Learning Research (ARIN).

Su trabajo investigador se centra en varios problemas dentro del “machine learning” y el “big data” (datos masivos), como los conjuntos de datos no balanceados y los sesgos, así como sus aplicaciones en la industria, salud y la observación de la Tierra. Cuenta con más de cien publicaciones, incluyendo 53 artículos en revistas indexadas JCR (Journal Citation Report) (44, en el primer cuartil) y un libro completo (publicado por la editorial Springer). Estas publicaciones suman más de 10.000 citas en Google Scholar (índice H de 34), y tres de ellas han sido calificadas por la empresa norteamericana Clarivate Analytics como las más citadas (“Highly Cited Papers”). También está en el 2% del “top” mundial de autores más citados en inteligencia artificial, según la lista publicada por la Universidad de Standford (Estados Unidos) y la editorial Elsevier. Por sus publicaciones, ha recibido varios premios. Asimismo, ha dirigido tres tesis doctorales y actualmente supervisa otras cinco. 

Al mismo tiempo, ha participado en veinte proyectos I+D de financiación pública (cuatro, como investigador principal) y 38 contratos de I+D con entidades privadas (25 como investigador principal). Desde 2018, es asesor científico del equipo de I+D+i de Tracasa Instrumental. También ha fundado, junto con dos de sus estudiantes de doctorado, Neuraptic AI, una “spin-off” (empresa de base tecnológica) de la UPNA dedicada al desarrollo de tecnologías de inteligencia artificial.

En lo que respecta a la actividad docente, imparte asignaturas relacionadas con la inteligencia artificial, “machine learning” y “big data” desde 2011. Su trabajo como profesor fue reconocido en 2020 cuando recibió un premio a la excelencia docente en la UPNA. 

Finalmente, cabe destacar que ha publicado el libro “Large-Scale Data Analytics with Python and Spark” en la editorial Cambridge University Press (Reino Unido), una de las más prestigiosas del mundo.

Proyectos evaluados por especialistas independientes

El programa de Becas Leonardo está compuesto por diez categorías del conocimiento y la cultura, entendidos desde una concepción amplia, que incluyen ciencias básicas; biología y biomedicina; ciencias del medio ambiente y de la tierra; ingenierías; ciencias de la computación y ciencias de datos; ciencias sociales; humanidades; artes plásticas; música y ópera; y creación literaria y artes escénicas. Las diez comisiones evaluadoras de las Becas Leonardo –una por cada categoría– que han decidido la composición final de personas beneficiarias están compuestas por un total de 83 especialistas del máximo nivel académico que operan con total independencia. 

El programa fue bautizado por la Fundación BBVA con el nombre de Leonardo Da Vinci (1452-1519), ya que su esencia es apostar por el conocimiento, independientemente de si se trata de indagación científica o creativa.