¿GPT, cada vez más temerario?: “Las últimas versiones son más cuñadas, pero resuelve cosas para las que no estaba preparado”

Cuanto más grande, más bobo. Instintivamente, el dicho podría aplicarse a los grandes modelos de lenguaje de la inteligencia artificial. Pero… no tan rápido. José Hernández-Orallo y Cèsar Ferri son dos de los evaluadores del Instituto Vrain de la UPV que entraron en el selecto equipo rojo de OpenAI encargado de corregir los vicios de GPT-4. ChatGPT es la aplicación de este modelo de IA que más ha impactado al público, por su verborrea y simulación de raciocinio. Pero le estamos empezando a ver las costuras de embaucador.

Hernández-Orallo y Ferri son coautores de un reciente estudio en Nature que demuestra que, aunque a veces asusta, “por lo aparentemente humano que es”, sus respuestas fallan demasiado, según crece. O no resuelve lo que esperamos. Y nos estamos decepcionando bien pronto. “Una paradoja para el público es que GPT pueda resolver ecuaciones propias de un doctor en matemáticas, pero falle en una simple suma”, explica Ferri. “Es que realmente no sabe sumar, esto es un poco un misterio”…

…Y, sin embargo, “[GPT-4] nos sorprendió porque empezó a resolver, a hacer algo para lo que no estaba preparado, como generar código”. Nadie le había enseñado a programar, pero GPT lo hace y funciona. No se sabe dónde lo ha aprendido. Es verdad que, al final, “programar es generar texto, aunque no sea una lengua humana”.

GPT sorprende resolviendo sopas de letras y Cifras y letras, cuando no debería, pero también hace trampas.

Por el camino, también descubrieron que GPT son buenos en sopas de letras y otros pasatiempos. Pueden parecer fáciles. No lo son. “Es sorprendente que estos sistemas resuelvan puzles lingüísticos sin que nadie les haya enseñado”. En particular, pueden ser buenos jugando a Cifras y letras. Pero… también responden por responder. Y hacen trampas.

En combinaciones complejas, ChatGPT inventa resultados erróneos al jugar a Cifras y Letras, pero tiene un cierto patrón: lo hace como lo harías tú si tuvieras que dar una respuesta instantánea, a golpe de vista: si te proponen, entre otras y en este orden, las letras AMMTVU es fácil que instintivamente te venga a la cabeza MAMUT. Parece que a GPT, también. Aunque otras veces acierta con más eficacia que un humano y, en otras, inventa sin más.

GPT y otros opinan y responden rápido pero sin certezas y eso nos desconcierta

“Es preocupante que los modelos de lenguaje tiendan a opinar sin tener certeza. De nuestro estudio se desprende que las últimas versiones son más cuñadas, sobre todo en temas triviales”. De hecho, se suele decir que los modelos de lenguaje son cuñados estocásticos (aleatorios), expresión popularizada por el profesor Julio Gozalo (UNED).

El gran problema es que no son conscientes de que se están volviendo cada vez más temerarios en sus conversaciones. No más maleducados (de hecho, es al contrario), pero “son más propensos a cometer errores graves que pasan desapercibidos, evitan no responder”, añade por su parte Pablo Haya Coll (Laboratorio de Lingüística Informática UAM e IIC). Es cierto que se esperan correcciones en este sentido. Los “modelos o1 de OpenAI se basan en un nuevo paradigma de entrenamiento e inferencia”, aclara en el SMC de España. Quizás veamos más mesura, más… ¿raciocinio antes de contestar? 

El debate sobre si GPT es consciente o tiene una inteligencia pareja la humana tiene algo de trampa de base, como recuerda, por otro lado, la profesora de Sistemas Inteligentes Julia Flores Gallego (UCLM). Explica en este capítulo de Tampoco es el fin del mundo que los modelos de lenguaje como GPT simplemente juntan palabras que probabilísticamente mejor encajan en un contexto, para dar una solución a algo que le pedimos los humanos (promt). Sencillamente, están diseñados para “hablar bien”, a partir de los conocimientos con los que han sido entrenados (que puede ser todo el contenido de internet).

Hacia un uso ético y menos centralizado en pocas manos

Ahí es donde pueden continuar las decepciones, como revela el estudio de Hernández-Orallo y Ferri. “Uno de los grandes retos de los grandes modelos de lenguaje es la interpretabilidad y explicabilidad (para los humanos)”. El experto en big data Josep Curto (UOC) destaca que según GPT u otros crecen en complejidad, “la explicación [a la respuesta que dan] también crece en complejidad y puede llegar a superar nuestra capacidad de comprensión”.

En este sentido, Flores pone un ejemplo: “No queremos ir al banco y que nos digan que no nos conceden un crédito porque, simplemente, lo dice el algoritmo”. Queremos una explicación. Ella ve en cosas como estas, ligadas a la ética, más riesgos que en una hipotética ida de las manos de las IA, como parece temer Goeffrey Hinton, reciente premio Nobel de Física.

Cèsar Ferri ve un potencial de colaboración, no de competencia entre inteligencias humana y artificial. Y un límite: la fiabilidad que “díficilmente puede ser del 100%” y de sostenibilidad. Las capacidades de modelos como GPT reside en hacerse cada vez más grandes. “Estamos en una carrera armamentística, donde los consumos de electricidad y agua son desorbitados”, para sostener los centros de datos y procesamiento que alimentan a las IA. Al final, hay algo físico detrás, como recuerda la doctora Flores. Y eso también da tranquilidad. La carrera por la singularidad de la IA suena a Proyecto Manhattan, pero más que un botón nuclear, siempre tenemos a mano el botón de apagado de las máquinas que sostienen a las IA.

Escucha la entrevista completa a los profesores Ferri y Flores en este capítulo de Tampoco es el fin del mundo:


Sigue en newtral.es/findelmundo todos los episodios de Tampoco es el fin del mundo o suscríbete en iVooxApple Podcast o Spotify

Fuentes

Estudio de Zhou, Ferri et al. en ‘Nature’, 2024

Estudio sobre el consumo de agua de GPT, de Shaji George et al. en PUIIJ, 2023

Cèsar Ferri (UPV)

Julia Flores Gallego (UCLM)

Josep Curto (UOC)

Pablo Haya Coll (UAM e IIC)

Читайте на 123ru.net