Existe un benchmark que trata de puntuar la
inteligencia de los modelos de IA con una particularidad: su resolución es extremadamente complicado para los modelos de IA, pero fácil para el razonamiento humano.
La primera competición para conseguir la máxima puntuación de este benchmark (ARC-AGI), fue superada por el modelo o3 (low) de
OpenAI en un 75,7% y en un 87,5% (o3 high). A
OpenAI le llevó cuatro años pasar en 2020 de un 0% con GPT-3 a un 5% en 2024 con GPT-4o. Y dado que los modelos de razonamiento profundo son cada vez más sofisticados, ARC-AGI vuelve con una versión mejorada de su benchmark que se lo pondrá muy complicado a los modelos de IA del momento, y que también podemos resolver nosotros mismos.
En 2019, François Chollet -creador de Keras, una biblioteca de aprendizaje profundo de código abierto adoptada por más de dos millones de desarrolladores-, publicó 'On the Measure of Intelligence', donde introdujo el 'Corpus de abstracción y razonamiento para la
inteligencia general artificial' (ARC-AGI) de referencia para medir la
inteligencia.
Desde entonces, se ha consolidado como un
test fiable que prueba las capacidades de una IA donde los participantes independientes y compañías ponen a prueba sus soluciones en una competición, la ARC Prize. En 2025, la competición se realizará sobre ARC-AGI 2, con grandes mejoras respecto a su predecesor.