Conecta con nosotros

Noticias

OpenAI admite que sus modelos están incentivados para “alucinar”

Publicado el

OpenAI admite que sus modelos están incentivados para “alucinar”

Los modelos de lenguaje tienden a inventarse respuestas en lugar de admitir lo que no saben. Esto es un hecho que cualquier usuario habitual de esta tecnología conoce y una de las razones por las que la confianza en dejárselo todo a la IA no ha ido más allá. Es lo que en el argot técnico se denomina alucinaciones y es la propia OpenAI la que lo reconoce, recogen en The Register.

Pero esto no sería noticia. Lo que la compañía estrella del sector acepta no es la existencia de las alucinaciones, un problema con el que se lleva lidiando desde la explosión del fenómeno de la IA generativa, sino el por qué sucede, aunque tampoco era un secreto. Y no se trata de un fallo menor: es más bien una consecuencia directa de cómo se entrenan y evalúan estas inteligencias artificiales.

En resumen, OpenAI ha reconocido que la IA está programada para complacer al usuario, es decir, anteponen el ofrecer una respuesta, aunque ello conlleve inventar cosas, a admitir su ignorancia. El “hallazgo” se recoge en un artículo académico (PDF) publicado recientemente en el que se expone que “la mayoría de evaluaciones convencionales premian el comportamiento alucinatorio”.

Los sistemas de evaluación, inspirados en exámenes de tipo test, penalizan la incertidumbre y valoran más que el modelo se aventure con una respuesta errónea a que reconozca no saber la solución. Los investigadores lo ilustran con un ejemplo concreto: al pedir a un modelo de OpenAI la fecha de nacimiento de uno de los autores del estudio, devolvió tres resultados distintos y todos falsos. En lugar de decir “no lo sé”, el motor está diseñado para “arriesgarse”. “Sobre miles de preguntas de prueba, el modelo que adivina termina pareciendo mejor en los marcadores que otro más cuidadoso que acepte incertidumbre”, señalan los autores.

Las alucinaciones provienen, por lo tanto, de un sesgo estructural en el diseño. Sin embargo, la tendencia a este fallo no solo se da en la fase de preentrenamiento, donde los modelos absorben datos de calidad dispar, sino que se enfatiza en la fase de ajuste posterior. En ese momento los benchmarks suelen replicar exámenes estandarizados que castigan el reconocimiento de ignorancia.

El resultado de este modus operandi es un incentivo perverso, puesto que un modelo obtiene mejor puntuación si inventa una respuesta “plausible” que si se abstiene. Es un premio a la iniciativa y creatividad que arrastra problemas de confianza determinantes, y es que las directrices con las que se entrenan y ofrecen estos servicios se superponen incluso a las instrucciones explícitas del usuario. Un riesgo evidente para la confianza en estas herramientas que no se reduce a OpenAI.

Pero por fin hay admisión de ello. La conclusión del trabajo apunta a modificar tanto los criterios de evaluación como los propios entrenamientos para que se premie la respuesta adecuada, incluso si es un “no lo sé”. OpenAI asegura que ya está aplicando cambios en GPT-5 -esta era una de las novedades de la nueva versión- para aumentar la frecuencia con que el sistema opta por esta salida, aunque admite que las alucinaciones no han desaparecido.

Enfocado en las nuevas tecnologías empresariales y de usuario final. Especializado en Linux y software de código abierto. Dirijo MuyLinux y escribo en MC, MCPRO y MuySeguridad, entre otros.

Lo más leído