El entrenamiento de modelos avanzados de inteligencia artificial, como el nuevo
Llama 3 con 70 mil millones de parámetros, plantea desafíos significativos para la computación moderna. Este tipo de procesos requiere un sistema distribuido que puede integrar cientos o incluso miles de instancias aceleradas, funcionando durante semanas o meses para completar un único trabajo. Un ejemplo de ello es el preentrenamiento del modelo
Llama 3, que utilizó 15 billones de tokens de entrenamiento y demandó 6,5 millones de horas de GPU H100. Para esto, se emplearon 256 instancias de Amazon EC2 P5, cada una equipada con 8 GPUs NVIDIA H100, lo cual llevó aproximadamente 132 días.
Los trabajos de entrenamiento distribuidos funcionan de manera sincrónica, cada paso de entrenamiento necesita que todas las instancias participantes completen sus cálculos antes de progresar al próximo paso. Esto significa que un fallo en una sola instancia puede parar todo el progreso. A medida que crece el tamaño del clúster, debido a la cantidad de componentes de hardware involucrados.
La fiabilidad del sistema se evalúa a través de métricas como el tiempo medio entre fallos (MTBF), demostrando cómo un fallo de hardware no solo provoca la pérdida de horas de GPU, sino que también requiere tiempo preciado para identificar y resolver el problema.