Escalar modelos de IA sin sacrificar la calidad

El uso de la IA se extiende ahora como la pólvora, lo que significa que ya no basta con ofrecer algunas funciones integradas de IA/ML a través de sus productos, ahora es el momento de ampliar la IA. Sin embargo, esto conlleva una serie de retos, entre los que se incluyen una disminución de la calidad del rendimiento, interrupciones en el negocio, costes excesivos, fallos en la implantación del sistema y pérdidas irreparables de reputación.

Dado que el 71 % de las organizaciones ya utilizan IA generativa en su trabajo, debemos admitir que es necesaria para seguir siendo competitivos. El truco consiste en utilizar los modelos de IA de manera eficiente para obtener los máximos beneficios. Esto significa escalar e integrar sus funciones personalizadas de IA/ML en un sistema cohesionado que se optimiza a medida que consume más datos empresariales.

Contamos con más de 20 años de experiencia en el desarrollo de inteligencia artificial. Hoy, utilizaremos esta experiencia para explicar exactamente qué significa el escalado de la IA y por qué no equivale necesariamente a hacer que su sistema sea más grande. También enumeraremos consejos prácticos para ayudar a mantener la calidad general de los resultados de los modelos de IA durante el proceso y proporcionaremos ejemplos reales de cómo algunas grandes empresas han logrado esto y por qué.

Escalado de modelos de IA: ¿qué dirección es la adecuada para usted?

Cuando hablamos de escalar modelos de IA, normalmente nos referimos a ampliarlos. Sin embargo, a medida que los modelos de IA se vuelven más complejos y sus aplicaciones más generalizadas, el significado de «escala» cambia. Hoy en día, es necesario comprender que «más grande» no significa necesariamente «mejor» en lo que respecta a la calidad de los modelos de IA. Por lo tanto, lo primero que hay que decidir es qué tipo de escalado beneficiará más a las aplicaciones de su modelo de IA.

AmpliaciónComo su nombre indica, la ampliación de los modelos de IA implica expandir sus capacidades aumentando el número de parámetros, entrenándolos con conjuntos de datos más grandes y utilizando recursos computacionales adicionales. En pocas palabras, se hace el modelo más grande y se amplían sus límites para mejorar la calidad y la precisión de los resultados.

La desventaja del escalado ascendente es el coste. Este proceso requerirá una enorme inversión en datos, infraestructura y recursos computacionales. También aumenta el impacto medioambiental de la implementación y el uso de modelos de IA. Además, la inevitable saturación de datos puede provocar el deterioro de los resultados con el tiempo.

Escalado descendenteSorprendentemente, el escalado descendente es el paso que sigue naturalmente al escalado ascendente. La recopilación de datos a partir de la supervisión de la deriva del modelo de IA y del rendimiento general le proporciona información que le permite reducir la escala de manera eficiente. Se trata de un proceso de optimización que crea modelos de IA más eficientes. En términos sencillos, se elimina todo lo que no es esencial de la fase anterior de ampliación de la IA para preservar la calidad del rendimiento del modelo para las tareas principales.

La principal limitación de la reducción de escala es que normalmente se centra en un único modelo optimizado, lo que puede complicar la implementación de modelos de IA en entornos distribuidos o multimodelo.

AmpliaciónEl siguiente paso para refinar la calidad del modelo de IA es la ampliación. Se basa en los resultados obtenidos al reducir la escala. Sin embargo, va más allá al descomponer un modelo monolítico en un ecosistema de IA con la inteligencia central y los modelos especializados responsables de tareas específicas.

Este enfoque de la ampliación de la IA requiere una mayor sofisticación y colaboración con desarrolladores que tengan experiencia en soluciones impulsadas por la IA para el crecimiento.

Escalado de modelos de IA: estrategias probadas para garantizar la calidad y la fiabilidad

Cómo mantener la calidad del rendimiento en los modelos de IA durante el escalado

Independientemente de la ruta que elija al escalar modelos de IA, debe minimizar las interrupciones comerciales causadas por los cambios. Para lograrlo, debe garantizar un uso altamente específico de la potencia informática e implementar herramientas que reduzcan la latencia y optimicen la relación coste-valor.

Adapte el tamaño del modelo a los datos

No olvide que, en lo que respecta a la IA, más grande no significa mejor. Según un estudio a gran escala con el modelo Chinchilla, que supera tanto a Gopher como a GPT-3, pero utiliza muchos menos recursos informáticos, la clave está en equilibrar el tamaño del modelo y el volumen de datos de entrenamiento.

En pocas palabras, la calidad del modelo de IA será menor cuando se entrene un modelo grande con un conjunto de datos pequeño, en comparación con el entrenamiento de uno más pequeño con fuentes de datos robustas y vastas. Si su objetivo es automatizar las estrategias de escalado de IA, el principio básico debe ser entrenar durante más tiempo utilizando más datos, en lugar de limitarse a aumentar el número de parámetros.

Diseñe para escalar

Incluso puede ejecutar modelos de IA moderadamente grandes en una sola GPU. Sin embargo, si desea continuar con el escalado y la optimización futura, la arquitectura que construya debe admitir:

Paralelismo de modelos para dividir capas y tensores en varias GPU.
Paralelismo de canalización para agrupar capas en distintos dispositivos.
Paralelismo de tensores para dividir operaciones matriciales.
Fragmentación de estado/optimizador para evitar replicar todos los gradientes y el estado del optimizador en distintos dispositivos, lo que evita la sobrecarga de memoria.

Utilice la dispersión y la recuperación

Una de las formas más eficaces de preservar la calidad del modelo de IA al escalar es recurrir a la dispersión. Utilice técnicas de dispersión, como Mixture-of-Experts (MoE), para activar solo una fracción de los pesos del modelo por token de entrada, lo que mejora la eficiencia sin sacrificar la precisión. De esta manera, solo se activa una fracción de los pesos del modelo por token de entrada. En pocas palabras, esto significa que el modelo utilizará solo una parte de su capacidad para obtener un resultado preciso sin aumentar indebidamente la computación o la latencia.

Los métodos RAG, o de recuperación aumentada, ofrecen otra forma de optimizar las implementaciones de IA e incluso mejorar la calidad de los resultados. La implementación de RAG es ideal para el escalado, ya que permite al modelo recurrir a datos de almacenes de conocimiento externos. Se trata de un método para mejorar la precisión factual sin escalar el conocimiento del modelo ni sobrecargar su capacidad interna. Además, es una solución eficaz para reducir los costes de implementación de los modelos de IA.

Asegúrese de que la inferencia sea rápida y fiel.

Uno de los principales objetivos al escalar modelos de IA es reducir la latencia en el servicio. Utilice técnicas como la reutilización de caché KV para reutilizar claves/valores calculados para tokens anteriores al servir una nueva continuación de mensaje.

Implemente la decodificación especulativa, en la que un modelo «borrador» más pequeño propone tokens que son verificados por un modelo más grande, lo que aumenta el rendimiento de la inferencia y mantiene la fidelidad de la salida. Esto aumenta la velocidad de salida y el rendimiento general. Además, mantenga la fidelidad (mantenga los resultados que ofrece el modelo sin cambios durante las optimizaciones) mediante una cuantificación cuidadosa o una precisión mixta.

Pruebe antes de la implementación

Las evaluaciones fuera de línea pueden mostrar excelentes resultados. Sin embargo, aún es necesario realizar pruebas durante las implementaciones de IA. Ejecute el modo sombra para reflejar el tráfico real sin mostrar directamente a los usuarios la salida de su modelo escalado.

El siguiente paso debe ser un lanzamiento canario, en el que se implementa el nuevo modelo en una fracción del tráfico. A continuación, realice pruebas A/B para comparar los resultados y detectar regresiones u otros problemas que se mostrarán en las métricas (precisión, latencia o toxicidad). Este enfoque por etapas permite implementar una supervisión eficaz de la deriva del modelo de IA. También evitará fallos masivos durante la adopción masiva del nuevo modelo por parte de los usuarios.

Entrenamiento de modelos de IA frente a servicio a gran escala

Otra cosa a tener en cuenta es que la escalabilidad de la IA varía entre el entrenamiento y el servicio de modelos de IA. Cuando se trata de proyectos a gran escala, como el desarrollo de software empresarial, es necesario utilizar enfoques y técnicas muy específicos para evitar interrupciones y mantener la calidad de los resultados para los usuarios.

Cómo funciona el entrenamiento de IA a gran escala

Al ampliar el entrenamiento de modelos, siga la siguiente lista de verificación:

Al gestionar datos, seleccione corpus diversos y de alta calidad, elimine duplicados de forma agresiva y filtre la información tóxica o PII. Además, aplique las restricciones de licencia pertinentes a su campo.
Entrene los modelos de IA en un régimen óptimo de computación, asegurándose de que el número de tokens de entrenamiento sea proporcional al recuento de parámetros del modelo para obtener la máxima eficiencia.
Implemente el paralelismo de modelos para distribuir capas y tensores entre varias GPU o TPU, mejorando la escalabilidad y reduciendo los cuellos de botella de memoria de un solo dispositivo.
Utilice técnicas ZeRO o Fully Sharded Data Parallel (FSDP) para fragmentar los estados del optimizador, los gradientes y los parámetros entre los nodos, lo que permite que los modelos más grandes se ajusten a la memoria disponible.
Implemente el entrenamiento de precisión mixta y los puntos de control de activación para reducir el consumo de memoria y mantener un rendimiento computacional óptimo.
Aumente la eficiencia mediante la dispersión para escalar el recuento de parámetros sin recursos computacionales proporcionales.
Vuelva a ponderar o sobremuestre los datos de alto valor durante las últimas etapas del entrenamiento para mejorar la especialización del modelo y reducir el sobreajuste.
Realice paradas y evaluaciones durante el entrenamiento y examine múltiples métricas relevantes.
Instrumente todo para las regresiones a fin de garantizar que pueda restaurar el rendimiento óptimo si es necesario.

Patrones de producción para el servicio de IA

El escalado de modelos de IA en el servicio conlleva algunos retos que se pueden resolver de forma eficaz si se tiene en cuenta lo siguiente:

En la arquitectura de servicio, implemente trabajadores de modelos sin estado detrás de una puerta de enlace de inferencia de baja latencia con políticas de autoescalado basadas en el rendimiento de los tokens y la latencia de las solicitudes. Al automatizar las estrategias de escalado de la infraestructura de IA, asegúrese de que el autoescalado se realice en los tokens y aísle a los inquilinos ruidosos.
Para el almacenamiento en caché, implemente el almacenamiento en caché de resultados/solicitudes y la reutilización de caché KV para permitir la continuidad de la sesión y reducir la latencia.
Utilice modelos preliminares más pequeños con modelos verificadores para aumentar la velocidad de generación de tokens (tokens/segundo) y garantizar al mismo tiempo una calidad de salida idéntica o equivalente.
Utilice cuantificación de pesos de 4/8 bits y pequeños asistentes destilados para rutas SLA bajas.
Confíe en la generación aumentada por recuperación (RAG) para garantizar el acceso a fuentes de conocimiento externas y actualizadas sin necesidad de volver a entrenar el modelo central.
Siga el patrón de implementación gradual Shadow-Canary en las implementaciones de IA escaladas.
Implemente una supervisión continua de la deriva del modelo con seguimiento de extremo a extremo, evaluaciones en tiempo real de segmentos de datos en vivo y alertas automatizadas para la deriva, los valores atípicos y las violaciones de las métricas de seguridad.

Ejemplos reales de implementaciones de IA a gran escala

Para comprender exactamente cómo puede evolucionar la escalabilidad de la IA y qué retos plantea, debemos examinar algunas empresas que han tenido éxito con sus modelos.

Lanzamiento de Llama 3 por parte de MetaSe trató de un proyecto a gran escala en el que Meta colaboró estrechamente con NVIDIA como socio de infraestructura. El lanzamiento de las versiones de Llama 3 con 8000 y 70 000 millones de parámetros requirió que Meta recopilara más de 15 billones de tokens de corpus de texto. Todos estos datos tuvieron que ser refinados y filtrados para eliminar los segmentos de baja calidad.

Se realizaron múltiples experimentos y se equilibraron múltiples fuentes de datos, como la web, el código, el diálogo y los textos científicos. Actualmente, Meta utiliza una amplia gama de herramientas para gestionar y supervisar el sistema y lanzar actualizaciones. Implementan capas de orquestación (por ejemplo, Kubernetes o programadores internos) y supervisan continuamente la calidad de la inferencia y las métricas de latencia.

Escalado de ML Michelangelo de UberMichelangelo es uno de los mejores ejemplos públicos de una pila de IA/ML a escala de producción que se pueden encontrar en la actualidad. Comenzó con los equipos individuales de Uber creando canalizaciones personalizadas, soluciones puntuales e integraciones. Este enfoque dio lugar al aumento de la deuda operativa y la expansión del ML. Michelangelo fue la solución que reunió las funciones de ML necesarias en una única plataforma. Actualmente combina la ingesta de datos, el almacenamiento de características, el entrenamiento y la implementación de modelos, la supervisión y la gestión del ciclo de vida.

El exitoso ejemplo de Uber en materia de escalabilidad de la IA demuestra que, incluso si se parte de un complejo sistema a escala empresarial de API desconectadas y otras soluciones, es posible reducir los costes y aumentar el rendimiento mediante la implementación de la IA. Las empresas que aún no han alcanzado el nivel de Uber pueden fijarse en el caso de Evolv AI y ver cómo empezar a implementar la IA a menor escala.

Optimización Pro-ML de LinkedInLinkedIn utiliza múltiples sistemas de ML para ayudar a sus usuarios a encontrar trabajo, filtrar contenidos, completar búsquedas, anunciarse y realizar otras acciones. Sin embargo, con tantas funciones de ML independientes, se enfrentaban a retos comunes, como la duplicación de esfuerzos, la complejidad de la implementación de nuevos modelos de IA y la complejidad de las versiones, entre otros. La respuesta de LinkedIn a estos retos fue el lanzamiento de Pro-ML (Productive Machine Learning), que les permite unificar la infraestructura, las herramientas y las mejores prácticas a lo largo de su ciclo de vida de ML.

Escalado de ML de Netflix MediaTodo el mundo conoce los famosos algoritmos de recomendación de Netflix. Sin embargo, es solo una de las muchas funciones de ML que utiliza la red de streaming, y funciona con enormes cantidades de datos. Los principales retos a los que se enfrenta son el enorme volumen de datos y los procesos que deben escalarse para procesar múltiples modalidades a diario, la extrema complejidad de los modelos, la abstracción de datos, la fiabilidad del streaming y la resistencia.

Resuelven sus problemas mediante el escalado de la IA y la creación de plataformas como Data Gateway, que ayudan a abordar cada reto. La complejidad del sistema requiere un enfoque multicapa que va desde la estratificación de modelos de IA multimodales hasta la estrecha colaboración con Intel para las necesidades de infraestructura y la optimización del hardware.

Resumen

El escalado de los modelos de IA es un reto, especialmente si se quiere evitar una caída en la calidad del rendimiento. Sin embargo, también es una necesidad a medida que crecen las implementaciones de IA, lo que a menudo da lugar a sistemas excesivamente complicados que se averían y cuyo mantenimiento cuesta una fortuna debido a la falta de sincronización entre los componentes.

La solución es el escalado de la IA, que incorporará todo lo necesario, mejorará las posibilidades y optimizará todo. Asociarse con desarrolladores de agentes de IA experimentados puede ser el primer paso en este proyecto. Juntos, podemos elaborar la estrategia que evitará interrupciones en sus flujos de trabajo y, al mismo tiempo, pondrá todo el sistema a la altura. Como resultado, las empresas obtienen modelos de IA más productivos y rentables que pueden manejar eficazmente los desafíos que plantea el creciente interés de los usuarios.

Si está listo para dar este siguiente paso, explorar los límites de la escalabilidad de su IA e ir más allá, póngase en contacto con nosotros y veremos cómo hacer que este viaje sea un éxito para su empresa.

Descubre cómo creamos una aplicación de reclutamiento basada en inteligencia artificial que fue adquirida por una importante empresa de selección de personal de EE. UU.

Escalado de modelos de IA: estrategias probadas para garantizar la calidad y la fiabilidad