A Fondo
Cómo medir la Inteligencia Artificial General
La Inteligencia Artificial General (AGI) es la próxima frontera de la IA. Definida de manera común como la tecnología que puede igualar las habilidades de los humanos en la mayoría de las tareas, la gran pregunta es cuándo será posible y cómo seremos capaces de evaluarla.
A medida que la sofisticación de la IA sigue escalando niveles, gracias a computadoras más rápidas, mejores algoritmos y más datos, los plazos se han comprimido. Los líderes de los principales laboratorios de IA, incluidos OpenAI, Anthropic y Google DeepMind, esperan AGI dentro de unos pocos años.
Cómo medir la Inteligencia Artificial General
Un sistema informático que piense como nosotros facilitará una colaboración más estrecha con los humanos. Los impactos inmediatos y a largo plazo de la IA, si se logra, no están claros, pero se prevén cambios en todos los ámbitos, desde la economía a los descubrimientos científicos, pasando por la geopolítica.
Y si la IA conduce definitivamente a la superinteligencia, podría incluso afectar la posición de la humanidad en la jerarquía depredadora. Por lo tanto, es imperativo que sigamos de cerca el progreso de la tecnología para prepararnos para dicha disrupción. Evaluar las capacidades de la Inteligencia Artificial General permitirá definir regulaciones legales, objetivos de ingeniería, normas sociales y modelos de negocio, así como comprender la inteligencia de forma más amplia.
Si bien evaluar cualquier capacidad intelectual es difícil, hacerlo en el caso de la IA general presenta desafíos especiales. Esto se debe, en parte, a que hay fuertes discrepancias en su definición: algunos definen la IA general por su rendimiento en los benchmarks, otros por su funcionamiento interno, su impacto económico o sus vibraciones. Por lo tanto, el primer paso para medir la inteligencia de la IA es llegar a un acuerdo sobre el concepto general.
Otro problema es que los sistemas de IA tienen fortalezas y debilidades diferentes a las de los humanos, por lo que incluso si definimos la IAG como «IA que puede igualar a los humanos en la mayoría de las tareas», podemos debatir qué tareas realmente importan y qué humanos marcan la pauta. Las comparaciones directas son muy difíciles, como explicara Geoffrey Hinton, ganador del Premio Nobel por su trabajo en IA: «Estamos construyendo seres extraterrestres».
Diseñar y proponer pruebas que puedan arrojar luz sobre nuestro futuro es algo en lo que están ocupados algunos investigadores, pero persiste una pregunta: ¿Pueden estas pruebas decirnos si hemos alcanzado el ansiado objetivo de la IAG?
Por qué es tan difícil evaluar la inteligencia
Existen infinitos tipos de inteligencia, incluso en los humanos. Las pruebas de CI proporcionan una especie de resumen estadístico al incluir una gama de tareas semi relacionadas que involucran memoria, lógica, procesamiento espacial, matemáticas y vocabulario. Desde una perspectiva diferente, el rendimiento en cada tarea se basa en una combinación de lo que se denomina inteligencia fluida (razonamiento sobre la marcha) e inteligencia cristalizada (aplicación de conocimientos o habilidades aprendidas).
Los ciudadanos de países del primer mundo, las pruebas de CI suelen predecir resultados clave, como el éxito académico y profesional. Sin embargo, no podemos hacer las mismas suposiciones sobre la IA, cuyas habilidades no se agrupan de la misma manera. Una prueba de CI diseñada para humanos podría no decir lo mismo de una máquina que de una persona.
Existen otros tipos de inteligencia que no suelen evaluarse mediante pruebas de CI, y que están aún más fuera del alcance de la mayoría de los parámetros de IA. Estos incluyen la inteligencia social, como la capacidad de realizar inferencias psicológicas, y la inteligencia física, como la comprensión de las relaciones causales entre objetos y fuerzas, o la capacidad de coordinar un cuerpo en un entorno. Ambas son cruciales para los humanos que se enfrentan a situaciones complejas.
Evaluar la inteligencia es difícil, tanto en personas como en animales o máquinas. Y hay que tener cuidado con los falsos positivos y los falsos negativos. También es difícil porque las nociones de inteligencia varían según el lugar y el tiempo, incluidos los cambios que se van produciendo en las sociedades y la comprensión de lo que es verdaderamente importante.
Pruebas de IA
A lo largo de los años, muchas personas han presentado a las máquinas grandes desafíos que pretendían requerir una inteligencia a la par con la nuestra. En 1950, Alan Turing, considerado «padre» de la ciencia de la computación precursora de la informática moderna, propuso un juego que evaluaba la capacidad de una máquina para exhibir un comportamiento inteligente similar al de un ser humano o indistinguible de este. Durante décadas, aprobar lo que ahora se conoce como el ‘test de Turing’ se consideró un reto casi imposible y un fuerte indicador de IAG.
Ya en los años 60 investigadores describieron el ajedrez como el juego intelectual por excelencia y pensaron que el diseño de una máquina de ajedrez exitosa sería un gran punto de inicio. Algo de ello se concretó en 1997 cuando la máquina Deep Blue venció a Garry Kasparov, el campeón mundial de ajedrez en aquellos momentos. Y eso que la máquina de IBM carecía de la inteligencia general incluso para jugar una simple partida de damas.
Otro avance para pruebas de IA llegó en 2019 cuando François Chollet, entonces ingeniero de software en Google publicó un artículo titulado «Sobre la medida de la inteligencia». Como complemento, creó el nuevo punto de referencia llamado ARC para intentar medir la Inteligencia Artificial General. Incluía cientos de ejercicios visuales, cada uno con varias demostraciones y una prueba. Una demostración consta de una cuadrícula de entrada y una de salida, ambas con cuadrados de colores. La prueba solo tiene una cuadrícula de entrada. El reto consiste en aprender una regla de las demostraciones y aplicarla en la prueba, creando así una nueva cuadrícula de salida.
Para que no se trate de una prueba de conocimiento almacenado, sino de cómo se recombina, los rompecabezas de entrenamiento deben proporcionar todos los conocimientos básicos previos necesarios. Estos incluyen conceptos como la cohesión de objetos, la simetría y el conteo: el sentido común de un niño pequeño. Los humanos pueden resolver la mayoría de los rompecabezas con facilidad, pero la IA tuvo dificultades, al menos al principio.
El pasado marzo Chollet presentó una versión más difícil, llamada ARC-AGI-2. La puntuación humana promedio es del 60 por ciento, mientras que la mejor puntuación de IA es de alrededor del 16 por ciento. ARC está considerado un gran punto de referencia teórico que puede arrojar luz sobre el funcionamiento de los algoritmos, pero que no tiene en cuenta la complejidad real de las aplicaciones de IA, como las tareas de razonamiento social. De ahí que otros investigadores, en lugar de puntos de referencia, prefieran observar los descubrimientos científicos que la IA es capaz de realizar y los trabajos que automatizan.
General-Bench es otro de los benchmark de referencia. Utiliza cinco modalidades de entrada (texto, imágenes, video, audio y 3D) para probar sistemas de IA en cientos de tareas que exigen reconocimiento, razonamiento, creatividad, juicio ético y otras capacidades para comprender y generar material. Idealmente, una IA general mostraría sinergia, aprovechando las capacidades de las distintas tareas para superar a los mejores especialistas en IA. Sin embargo, actualmente, ninguna IA puede siquiera gestionar las cinco modalidades.
El resumen es que es sumamente difícil evaluar estas capacidades y mucho más saber cuando habremos alcanzado esa Inteligencia Artificial General o la capacidad de igualar las habilidades de los humanos en la mayoría de las tareas. Y todo lo que ello conlleva en múltiples campos.
-
EntrevistasHace 5 días«El reto no es crear agentes IA sino ordenar y gobernar los que están naciendo»
-
NoticiasHace 7 díasWikipedia insta a las empresas de IA a usar su API de pago y parar el scraping
-
EntrevistasHace 7 días«La tríada de Bosch para redefinir la industria española es IoT, IA y sostenibilidad»
-
NoticiasHace 7 díasLa UE simplificará y relajará algunas medidas sobre IA y privacidad por presión de las tecnológicas



