Prevenir sesgos en modelos de lenguaje: empoderando la diversidad en la era digital
Un estudio de Stanford reveló que los datos utilizados para entrenar a las IA provienen, de fuentes con sesgo de diversidades. Cómo podemos hacer para construir una herramienta equitativa y que no excluya a nadie.
Los Modelos de Lenguaje de Gran Escala (LLM por sus siglas en inglés) como ChatGPT, están transformando la forma en que nos comunicamos y obtenemos información; sin embargo, estos avances tecnológicos enfrentan desafíos significativos en la prevención de sesgos, particularmente de aquellos que afectan al colectivo LGTBIQ+ y otros grupos o diversidades.
El estudio The AI Index Report 2024 de la Universidad de Stanford revela que en los datos utilizados para entrenar LLM predominan sesgos de género y raciales. Así también, lo han manifestado las alertas del último informe de la UNESCO, en marzo de este año, sobre estereotipos de género regresivos. Esta realidad, puede llevar a perpetuarlos, y a su vez excluir la gran variedad de voces.
“Un informe de McKinsey & Company señala que las organizaciones que cuentan con equipos diversos, inclusivos, y equitativos son más eficientes, productivos, innovadores y creativos”, explica Jorge Lukowski, director global de Marketing y Comunicación de NEORIS. Miembro de Forbes Council, de la Asociación Española de MKT y de REDI LGTBIQ+.
En este contexto, una preocupación que surge en la comunidad es cómo extender ese compromiso asumido en el mundo real de justicia social y derechos humanos, al ámbito de la virtualidad en general y, específicamente, en el desarrollo de tecnologías avanzadas como los LLM para que arrojen resultados que contemplen a todas las diversidades para ser representativos de la sociedad de manera plena.
Y es que, para lograr este objetivo, es vital considerar varios aspectos clave. Desde una perspectiva económica, el mercado laboral actual de la informática en general y en el de estos sistemas en particular, no es lo suficientemente amplio para satisfacer todas las necesidades tecnológicas. Fomentar la diversidad, ayuda a cubrir esta brecha al atraer a más personas de distintos orígenes, además de que promueve la generación de soluciones más ingeniosas y efectivas para abordar los desafíos más críticos de la sociedad.
“En términos de justicia y equidad, los potenciales prejuicios en los conjuntos de datos pueden llevar a resultados problemáticos si no se abordan adecuadamente”, reflexiona Lukowski.
Según el especialista, es crucial que los modelos sean auditados y revisados constantemente para identificar y mitigar sesgos, los cuales, generalmente, tienen que ver con la asociación de ciertos roles profesionales o emociones a géneros específicos. Esta predisposición también se puede extrapolar a otros aspectos de identidad, tales como la orientación sexual y la identidad de género.
Cuando las “alucinaciones” de las IA no son inclusivas en su totalidad
Las «alucinaciones» en los LLM representan un grave problema, ya que estos sistemas generan respuestas que, aunque sintáctica y semánticamente son correctas, están desconectadas de la realidad.
Uno de los casos recientes más relevantes fue el de Google, que pausó la creación de imágenes de personas con IA, luego de que los usuarios descubrieran que, cuando en el prompt –texto que le da una orden a la herramienta – se le pedía crear una imagen del papa arrojaba dos resultados, un hombre negro y una mujer india. Para este gigante tecnológico, el lanzamiento de Gemini ha supuesto posibles problemas legales y sociales porque esta tecnología no se usó correctamente.
Otro ejemplo es cuando los modelos generan incorrectamente citas y afirmaciones sobre cuestiones LGTBIQ+. Por ejemplo, un modelo podría afirmar erróneamente que una figura pública, conocida por su apoyo a los derechos LGTBIQ+, ha hecho declaraciones negativas sobre la comunidad, debido a la falta de datos diversos y precisos en su entrenamiento.
En otro caso, podría compartir citas falsas sobre la orientación sexual, basándose en estereotipos que están presentes en los datos.
Y es que, a estas alucinaciones, se le está poniendo especial atención, dado que es muy fácil crear contenido falso con fines políticos y maliciosos como, por ejemplo, noticias falsas acerca de situaciones que no son reales o fotografías modificadas para tergiversar la historia. El miedo está en que el futuro de Internet esté repleto de verdades sin fundamento.
“En el esfuerzo de las empresas tecnológicas por promover la igualdad en sus productos, es esencial encontrar un equilibrio entre ser precisos e inclusivos. Las organizaciones deben ser cuidadosas al programar modelos de IA para tener en cuenta ambas variables sin cometer imprecisiones y sesgos”, asegura Lukowski.
Para garantizar una tecnología inclusiva, el especialista insiste en que es esencial implementar acciones concretas, tales como el uso de diferentes fuentes en el entrenamiento de los LLM, para asegurar una representación justa de todas las identidades.
Porque sin una representación diversa en los datos de entrenamiento, existe la posibilidad de perpetuar las desigualdades existentes fallando en reflejar cómo es una verdadera sociedad. “La lucha por la justicia algorítmica es, en esencia, una extensión de la lucha por los derechos humanos. Necesitamos asegurarnos de que la tecnología que construimos sea equitativa, de modo que sirva a todos y no excluya a nadie”, sostiene.
Otro curso de acción vital es formar a los desarrolladores en este tipo de prácticas, para lo cual existen varias herramientas y recursos disponibles que pueden ayudar a las empresas y sus talentos a identificar prejuicios en sus modelos de lenguaje.
Para finalizar, Lukowski alienta a las organizaciones y a los profesionales del sector tecnológico a unirse a este esfuerzo por una IA más inclusiva, porque al avanzar en esta dirección, se construye un mundo digital más equitativo, que empodera a toda la sociedad por igual y es capaz de reflejar y respetar las diferencias en todas sus formas.