Un reciente análisis de McKinsey & Company ha proyectado que la inteligencia artificial generativa podría adicionar entre 2,6 y 4,4 billones de dólares al valor económico global, subrayando su capacidad de transformación en áreas como operaciones con clientes, marketing, ventas, ingeniería de software e investigación y desarrollo. Este promisor impacto económico ha impulsado a numerosas empresas a embarcarse en el desarrollo de aplicaciones de IA generativa dentro de la infraestructura de Amazon Web Services (AWS).
No obstante, los responsables de producto y arquitectos empresariales enfrentan el desafío de comprender los costos involucrados y cómo optimizarlos eficientemente. Este artículo aborda estas consideraciones de costo, presuponiendo que los lectores tienen un entendimiento básico sobre conceptos como modelos de base, grandes modelos de lenguaje, tokens y bases de datos vectoriales en AWS.
Uno de los marcos ampliamente adoptados en la implementación de soluciones de IA generativa es la Generación Aumentada por Recuperación (RAG), que faculta a los modelos de lenguaje para responder a consultas específicas con base en datos corporativos. En este entorno, se exploran los comienzos de la optimización de costos y rendimiento, incluyendo la selección, elección y personalización de modelos, así como la gestión de tokens, los planes de precios de inferencia y otros elementos.