Connect with us

Noticias

OpenAI presenta sus nuevos modelos de razonamiento de frontera: o3 y o3 mini

Publicado el

OpenAI presenta sus nuevos modelos de razonamiento de frontera: o3 y o3 mini

OpenAI ha anunciado el futuro lanzamiento de dos nuevos conjuntos de modelos de razonamiento de frontera, a la que ha llamado o3 y o3 mini, con modelos más pequeños y ajustados para tareas más concretas. Eso sí, la compañía no va a lanzarlos de manera inmediata, ya que todavía está probándolos, e incluso admiten que los resultados que pueden conseguir con ellos pueden variar después de que finalice su entrenamiento. Lo que sí ha hecho OpenAI es aceptar solicitudes de la comunidad de investigadores para probar ambos sistemas antes de su lanzamiento general, para el que todavía no hay fecha.

Por ahora se abrirá una prueba de o3 mini, y más adelante llegará la de los o3, aunque todavía no se ha fijado una fecha para ello. Pero según los planes de la compañía el lanzamiento de o3 se producirá a finales del próximo mes de enero, y después será el de o3.

Apenas han pasado tres meses después de que la compañía lanzase sus modelos o1, y se ha saltado la denominación lógica para su evolución: no ha lanzado los o2 y pasará directamente a los o3. La compañía asegura que lo ha hecho para evitar confusiones con la compañía de telecomunicaciones O2, aunque es probable que también lo haya hecho para evitar conflictos en temas de marcas registradas.

Cuando nos referimos a modelos de razonamiento, hablamos de modelos capaces de dividir las instrucciones que reciben en tareas más pequeñas, con el objetivo de generar resultados más sólidos. Los modelos de este tipo, además, suelen mostrar el camino que siguen para llegar a una respuesta, en vez de mostrar una solución final sin explicaciones adicionales. Y según OpenAI, o3 supera también los registros de rendimiento anteriores conseguidos por o1.

A diferencia de los que pasa con la mayoría de la IA, los modelos de razonamiento, como estos, comprueban sus propios resultados, lo que ayuda a que eviten algunos de los inconvenientes que les llevan a cometer errores. Eso sí, el proceso de comprobación de errores que siguen para ello les lleva a tener algo de latencia, por lo que tardan un poco más que otros modelos considerados como de «no razonamiento» en dar con las soluciones a las preguntas planteadas. A cambio, sus soluciones son más fiables en diversos campos, como la física, las ciencias o las matemáticas.

o3, en concreto, ha sido entrenado a través de aprendizaje de refuerzo para que «piense» antes de contestar, para lo que según OpenAI utiliza una cadena privada de pensamiento. Así, el modelo puede razonar una tarea y realizar una planificación previa, realizando varias acciones en un periodo de tiempo más o menos amplio, y contar así con ayuda para dar con la solución.

A diferencia de lo que sucedía con los modelos o1, los o3 permitirán ajustar el tiempo que tienen para razonar, por lo que pueden configurarse para emplear un tiempo de computación, o «pensamiento», bajo, medio o elevado. Como es evidente, a mayor tiempo de razonamiento, mejor realizarán la tarea que tengan asignada. Eso sí, hay que tener en cuenta que estos modelos de o3, considerados de razonamiento, no están tampoco libres de errores. Aunque el componente de razonamiento pueden reducir los fallos y las alucinaciones, no los elimina.

Los resultados de OpenAI o3 mejoran los de su antecesor en pruebas de codificación (SWE-Bench Verified) en un 22,8%, y mejoran al responsable científico de OpenAI en programación competitiva. De hecho, el modelo sacó unos resultados prácticamente perfectos en una de las competiciones de matemáticas más duras, el AIME 2024.

Solo falló una pregunta, además de conseguir un 87,7% de acierto en un bancho de pruebas para problemas de ciencia de nivel experto, el GPQA Diamond. En los problemas de matemáticas y razonamiento más complejos, en los que la IA habitualmente se topa con problemas, o3 resolvió un 25,2% de los problemas, cuando ningún otro modelo pasa del 2%. OpenAI asegura también que o3 tiene mejores resultados que sus otros modelos de razonamiento en bancos de pruebas de código.

Por otra parte, OpenAI ha anunciado que va a profundizar en la investigación en alineamiento deliberativo, que requiere que el modelo de IA procese decisiones de seguridad paso a paso. Así que, en vez de dar solo normas a las que contestar con un sí o con un no al modelo de IA, este paradigma necesita que el modelo razone activamente sobre si la petición de un usuario cumple las políticas de seguridad de OpenAI. Según la compañía, cuando lo probó en o1 obtuvo unos resultados mejores en el cumplimiento de las normativas de seguridad que con los modelos anteriores, como GPT-4.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Advertisement
Advertisement

Lo más leído