Inteligencia Artificial

El futuro de la inteligencia artificial: agentes generativos y datos sintéticos

En Nerdearla 2024, el ex Senior Research Engineer de Microsoft Research, Luciano del Corro, revela cómo los agentes generativos y los datos sintéticos están revolucionando el desarrollo de modelos de lenguaje, ofreciendo nuevas perspectivas y soluciones en el ámbito de la inteligencia artificial.

En el marco de Nerdearla 2024, uno de los eventos más importantes para la comunidad tecnológica en América Latina, Luciano del Corro, ex Senior Research Engineer en Microsoft Research, ofreció una perspectiva clara sobre la evolución de los modelos de lenguaje y el rol de los agentes generativos y datos sintéticos en el futuro de la inteligencia artificial. A lo largo de su intervención, del Corro destacó el impacto que estas tecnologías están teniendo y tendrán en los próximos años, abriendo nuevas posibilidades para la automatización y el procesamiento de datos.

Del Corro inició su charla subrayando un cambio clave en el mundo de la inteligencia artificial. “El año pasado fue la Revolución de los modelos de lenguajes, este año es el de los agentes y los datos sintéticos”, afirmó. Explicó que los agentes son modelos de lenguaje que, mediante la personalización a través de un prompt, adquieren comportamientos específicos. Esta flexibilidad permite que múltiples agentes puedan colaborar en la resolución de un problema desde diferentes ángulos.

“Podés configurar un agente para que se comporte como un abogado y otro como un contador. Ambos abordarán el problema desde sus respectivos roles, generando distintas perspectivas”, detalló del Corro. Esta capacidad para adaptar el comportamiento de los agentes a través de prompts está transformando la manera en que las inteligencias artificiales procesan y analizan información, haciendo que la resolución de problemas complejos sea más precisa y diversificada.

La revolución de los datos sintéticos

Uno de los conceptos que Luciano del Corro explicó con más detalle fue el de los datos sintéticos. Esta técnica, según sus palabras, está revolucionando la forma en que se entrenan los modelos de IA, ya que permite generar grandes cantidades de datos artificiales que simulan condiciones reales.

“La aplicación más directa es en el entrenamiento de modelos”, explicó del Corro. La generación de datos sintéticos permite entrenar modelos más pequeños que puedan realizar tareas específicas de manera eficiente, sin los altos costos que implican los modelos grandes. “En el paper que presente hoy, generamos 25 millones de puntos de datos sintéticos (data points) para entrenar un modelo más pequeño. Hace solo dos años, los modelos trabajaban con apenas 11,000 puntos de datos. Los datos sintéticos están cambiando eso de manera exponencial” añadió.

«Los datos sintéticos están cambiando eso de manera exponencial” – Luciano del Corro.

Ejemplos actuales de agentes generativos

Del Corro señaló que los agentes generativos ya se están utilizando en productos comerciales que el público interactúa a diario, como Bing Chat y ChatGPT. Explicó que cuando se le hace una pregunta a estos sistemas, los agentes generan respuestas a partir de múltiples fuentes de información. “Si le preguntas al modelo base qué pasó ayer, probablemente no sabrá la respuesta. Pero si usas un agente que se conecta a internet, buscará la información, la resumirá y te dará una respuesta”, comentó.

Este enfoque permite que los agentes generativos no solo se limiten a ofrecer respuestas basadas en lo que ya saben, sino que también pueden buscar la información más relevante para el usuario en tiempo real, abriendo nuevas posibilidades para la interacción con modelos de lenguaje.

Los desafíos de los datos sintéticos

A pesar del enorme potencial de los datos sintéticos, Luciano del Corro también reconoció que existen ciertos desafíos que aún deben superarse. Uno de los principales es comprender hasta dónde pueden llegar estas técnicas. “Podemos generar muchísimos más datos de los que se generaban antes, pero todavía no hemos llegado a entender cuál es la frontera de lo que se puede hacer”, señaló.

Además, explicó una situación hipotética en la que un modelo podría retroalimentarse de los datos que genera, creando un sistema de aprendizaje constante. Sin embargo, aunque la idea es prometedora, aún falta mucho para demostrar que esto puede funcionar en la práctica. “Sería ideal que un modelo se retroalimente de los datos que genera y siga aprendiendo de manera automática, pero por ahora no lo hemos conseguido”, admitió.

¿Podrán los datos sintéticos reemplazar a los datos reales?

Del Corro también reflexionó sobre si los datos sintéticos podrían llegar a reemplazar completamente a los datos reales. Aunque los datos sintéticos son útiles para ciertos contextos, todavía existen áreas en las que no son suficientes. “Los modelos de lenguaje son un gran promedio de todos los datos que reciben, pero cuando se trata de temas más específicos, como finanzas o salud, los modelos comienzan a tener problemas”, indicó.

El experto remarcó que en estos campos, el input humano sigue siendo esencial. “Un modelo puede generar muchos datos, pero en temas complejos, como la oncología, siempre será necesario que un experto valide los resultados”, explicó. Del Corro cree que, aunque los datos sintéticos y los agentes generativos avanzarán considerablemente, el papel de los expertos humanos seguirá siendo fundamental, al menos por ahora.

Mirando hacia el futuro

Al cerrar su presentación, Luciano del Corro compartió sus reflexiones sobre lo que espera para los próximos años en el campo de la inteligencia artificial. Si bien ve un gran potencial en la especialización de modelos mediante datos sintéticos, cree que aún se necesitan pruebas y más investigación para comprender el límite de estas herramientas.

“Vamos a seguir probando hasta dónde podemos especializar un modelo para realizar tareas específicas, pero hay casos en los que la intervención humana seguirá siendo necesaria”, concluyó. Entre los desafíos futuros, mencionó la generación de hipótesis científicas como un campo prometedor para los agentes generativos y los datos sintéticos, aunque reconoció que aún queda mucho por explorar.

Autor

[mdx-adserve-bstreet region="MED"]

Publicaciones relacionadas

Botón volver arriba