Existe un benchmark que trata de puntuar la inteligencia de los modelos de IA con una particularidad: su resolución es extremadamente complicado para los modelos de IA, pero fácil para el razonamiento humano.
La primera competición para conseguir la máxima puntuación de este benchmark (ARC-AGI), fue superada por el modelo o3 (low) de OpenAI en un 75,7% y en un 87,5% (o3 high). A OpenAI le llevó cuatro años pasar en 2020 de un 0% con GPT-3 a un 5% en 2024 con GPT-4o.