Cómo destilar un LLM paso a paso: El pipeline de profesor-alumno

La mayoría de los tutoriales hacen que la destilación de LLM parezca un proyecto de fin de semana. Cuarenta líneas de código de Hugging Face, un intercambio de BERT a DistilBERT, listo. El pipeline real es una escala de trabajo diferente. Eliges un profesor que legalmente puedes usar, generas un conjunto de datos sintético que no envenena al estudiante, entrenas con LoRA y demuestras que el estudiante no ha retrocedido silenciosamente en las entradas que tus usuarios envían realmente.

La parte del entrenamiento es el 20 por ciento fácil. El trabajo de datos y evaluación es el 80 por ciento que decide si el proyecto entrega o se detiene. Por eso, la mayoría de los equipos que apuestan por completo por los servicios de destilación de modelos terminan necesitando ayuda en las capas de datos sintéticos y evaluación, no en el bucle de entrenamiento. Antes de explicar cómo destilar un LLM de principio a fin, es útil aclarar qué significa realmente la destilación de profesor-estudiante en la práctica.

Qué significa realmente la destilación de profesor-estudiante

Un modelo profesor grande produce resultados para un conjunto de entradas, y un estudiante más pequeño se entrena para reproducirlos. El estudiante hereda la mayor parte del rendimiento de la tarea del profesor a una fracción del costo de inferencia. La destilación de caja blanca utiliza la distribución de probabilidad completa del profesor sobre los tokens, lo que conlleva más señal de aprendizaje pero requiere acceso a logits, por lo que solo profesores con pesos abiertos. La destilación de caja negra utiliza solo el texto que devuelve el profesor, lo que funciona con cualquier API alojada pero ofrece menos señal por muestra.

Así es el entrenamiento de modelos profesor-estudiante a nivel conceptual. La prueba que todos recuerdan es DistilBERT. El equipo de Hugging Face demostró que podía reducir BERT en un 40% y ejecutarlo un 60% más rápido manteniendo el 97% de su comprensión del lenguaje en el benchmark GLUE. Ese es el techo. El suelo, cuando los equipos se saltan los pasos siguientes, es un modelo pequeño que se equivoca con confianza en las entradas que importan. La destilación también es diferente de la recuperación, y nuestro marco de decisión de fine-tuning vs RAG es el mejor punto de partida si aún no has tomado esa decisión.

Cómo destilar un LLM paso a paso: El pipeline de profesor-alumno

Paso 1: Elige el profesor

El profesor decide dos cosas que no puedes cambiar después: qué tan bueno puede llegar a ser el estudiante y si tienes permiso para lanzarlo. Ambas preguntas merecen una respuesta real antes de generar un solo token de datos de entrenamiento.

Ajuste de capacidad

El estudiante hereda el techo del profesor, no tu ambición. Si el profesor alucina en tu dominio o falla en tus casos extremos, el estudiante reproducirá esos fallos de forma más rápida y económica. Ejecuta tus 50 prompts más difíciles a través del profesor candidato antes de comprometerte. Si el profesor obtiene un 70 por ciento, el estudiante no obtendrá un 90. Elige un profesor que ya sea fuerte en la tarea específica que quieres comprimir, no el modelo con los números de benchmark más ruidosos.

Licencia

Esta es la sección que la mayoría de los tutoriales omiten. Después de enero de 2025, los proveedores de modelos cerrados endurecieron sus términos públicamente. OpenAI, Anthropic, Mistral y xAI incluyen cláusulas que prohíben usar sus salidas para entrenar modelos competidores, con “competidor” interpretado de manera amplia. Según el Financial Times, OpenAI encontró evidencia de que DeepSeek usó sus modelos para entrenar a un rival, y la disputa se convirtió en el caso de referencia que todos los equipos legales citan ahora. En febrero de 2026, Anthropic acusó públicamente a DeepSeek, Moonshot y MiniMax de ataques de destilación a Claude, dejando claro que los proveedores están vigilando esto.

Los profesores con pesos abiertos tienen sus propios términos. La licencia comunitaria de Llama tiene umbrales de uso comercial, varios lanzamientos de investigación prohíben el uso comercial directamente, y los modelos Apache 2.0 son el camino más limpio si tu revisión legal es reacia al riesgo. La versión corta: lee la tarjeta del modelo, lee los términos de la API y documenta la decisión por escrito. Cada revisión legal posterior preguntará qué profesor usaste y qué permitía su licencia.

Paso 2: Genera el conjunto de datos sintético

Aquí es donde el proyecto se gana o se pierde. El estudiante aprende lo que sea que haya en los datos, incluidos los sesgos, alucinaciones y tics estilísticos del profesor. Un ejemplo típico de destilación de LLM en artículos de investigación utiliza decenas de miles de muestras cuidadosamente filtradas, y el tiempo dedicado al filtrado suele superar el tiempo dedicado al entrenamiento.

Entradas semilla y volumen

Empieza con prompts reales del dominio: logs de producción, tickets de soporte, consultas de usuarios redactadas, documentos internos. La diversidad importa más que el volumen bruto más allá de cierto punto. Para una tarea específica, de 1.000 a 5.000 semillas bien curadas a menudo superan a 50.000 ruidosas. Para un estudiante de seguimiento de instrucciones más general, planea de 20.000 a 100.000. Si no hay prompts reales disponibles, genera semillas con un modelo separado y haz que un humano revise la distribución antes de escalar.

Tres estrategias de generación

Cada método intercambia esfuerzo por calidad de señal.

Estrategia
Acceso al profesor necesario
Esfuerzo
Mejor para
Estrategia

Destilación de etiquetas suaves

Acceso al profesor necesario

Logits (solo pesos abiertos)

Esfuerzo

Alto

Mejor para

Clasificación, tareas específicas

Estrategia

Destilación solo de salida

Acceso al profesor necesario

Cualquier API alojada

Esfuerzo

Bajo

Mejor para

Tareas generativas, uso general

Estrategia

Destilación paso a paso

Acceso al profesor necesario

Cualquier profesor que pueda explicar

Esfuerzo

Medio

Mejor para

Tareas de razonamiento, regímenes de pocos datos

La destilación paso a paso vale la pena conocerla. El profesor genera una justificación junto con la respuesta, y el estudiante entrena con ambas. Investigadores de Google y Snorkel demostraron que esto puede igualar a un modelo más grande con significativamente menos datos, lo que importa cuando tu conjunto de semillas es pequeño.

Filtrado y revisión experta

La parte poco glamurosa del pipeline. Deduplica y ejecuta un filtrado ROUGE-L para duplicados cercanos. Descarta los valores atípicos de longitud y formato que confundirán al estudiante. Verifica aleatoriamente un 5 por ciento de las muestras en busca de alucinaciones. Para salidas reguladas, obtén la aprobación de un experto en el dominio para una muestra representativa. Espera rechazar entre el 20 y el 40 por ciento de las generaciones a lo largo del camino. Los equipos que omiten el filtrado envían estudiantes que se sobreajustan a las peculiaridades del profesor. Para tareas legales, médicas o financieras, la revisión experta no es opcional, y si esa capacidad de revisión es la limitación, nuestros servicios de desarrollo de agentes de IA a menudo incluyen esta capa.

Paso 3: Entrena al estudiante

El 20 por ciento fácil. LoRA inyecta pequeños adaptadores de bajo rango en los pesos existentes y congela el resto, reduciendo los parámetros entrenables a aproximadamente el 1 por ciento del total. QLoRA añade cuantización de 4 bits del modelo base además de LoRA, reduciendo las necesidades de memoria aproximadamente a la mitad. El resultado práctico: un estudiante de 7B se vuelve afinable en una sola GPU de 24 GB en lugar de un clúster de GPU múltiples.

Configuración que se mantiene en la mayoría de las tareas:

  • Rango entre 8 y 64. Alpha aproximadamente el doble del rango.
  • Tasa de aprendizaje cercana a 2e-4 con un cronograma coseno.
  • Acumulación de gradiente para alcanzar tu tamaño de lote efectivo.
  • Para destilación de etiquetas suaves: combinación ponderada de divergencia KL (distribuciones del profesor vs estudiante) y entropía cruzada en etiquetas duras, con escalado de temperatura en el softmax, T = 2 a 4.

Un consejo en el que coinciden los equipos de producción: empieza con el estudiante viable más pequeño. Un modelo de 1B tarda 20 minutos por ejecución y expone los problemas de infraestructura de inmediato. Un modelo de 70B tarda un día y los oculta. Haz que el bucle funcione de principio a fin en un modelo pequeño, y luego escala una vez que confíes en él. Los equipos que construyen sistemas más grandes sobre el modelo destilado a menudo necesitan trabajos de desarrollo de modelos de lenguaje grandes que van más allá del propio bucle de entrenamiento.

Paso 4: Evalúa correctamente

Aquí es donde la mayoría de los proyectos de destilación fallan silenciosamente. El entrenamiento se completa, MMLU parece bien, el equipo lanza, y tres semanas después, los tickets de soporte revelan que el estudiante está fallando en entradas largas, instrucciones ambiguas y cualquier cosa fuera de la distribución de datos sintéticos.

Los benchmarks públicos son la señal más débil de la imagen. MMLU, GLUE y HellaSwag son útiles principalmente para detectar regresiones catastróficas, ya que la contaminación de datos es endémica y el conjunto de pruebas puede haberse filtrado en el preentrenamiento o en las salidas del profesor. El activo que realmente importa es un conjunto de evaluación retenido y construido a partir de tráfico real. Quinientas a dos mil casos, etiquetados a mano cuando sea posible, que cubran la longitud de entrada, la complejidad, los casos extremos, los prompts adversarios y la cola larga que tus usuarios envían realmente.

Utiliza múltiples métodos juntos. Métricas específicas de la tarea como coincidencia exacta o BLEU para salidas específicas. LLM-como-juez utilizando una familia de modelos diferente a la de tu profesor, para evitar sesgos de la misma familia. Verificaciones puntuales manuales en el 10 por ciento inferior de las puntuaciones juzgadas, que es donde se esconden las regresiones. Rastrea el rendimiento por categoría, nunca solo el promedio. Un estudiante que obtiene un 96 por ciento en general puede obtener un 40 por ciento en entradas largas mientras que el promedio parece saludable.

Construir y mantener este sistema de evaluación es un trabajo de ingeniería más sostenido que el entrenamiento en sí. Los equipos sin infraestructura ML dedicada lo subestiman, lo lanzan y encuentran los problemas en producción. Aquí es donde las empresas a menudo buscan ayuda externa, tanto para la construcción inicial como para el conjunto de regresión que sobrevive a cada cambio de modelo. El desarrollo de IA en producción se basa en esta capa más que en cualquier modelo individual.

Cuándo vale la pena la destilación y cuándo no

La decisión rara vez se trata de si la destilación funciona. Se trata de si tu tarea y tu equipo están preparados para ello.

Buen ajuste cuando:

  • Tarea específica de alto volumen.
  • Superficie de producto sensible a la latencia.
  • Objetivo de costo de inferencia predecible.
  • Logs de producción reales disponibles para datos sintéticos.

Un enfoque de modelo profesor-estudiante se amortiza más rápido cuando el volumen de inferencia es lo suficientemente grande como para que la diferencia de costo con una API alojada recupere la inversión en ingeniería dentro de un trimestre o dos.

Mal ajuste cuando:

  • El profesor no funciona realmente bien en tu tarea.
  • No existen datos de evaluación reales.
  • No hay experiencia en el dominio disponible para revisión.

En esos casos, la generación aumentada por recuperación, el almacenamiento en caché de prompts o un modelo alojado más pequeño a menudo ofrecen del 60 al 80 por ciento del beneficio de costo sin ninguna de la complejidad del entrenamiento. La cuestión de cómo hacer fine-tuning de un modelo pequeño frente a recuperar o destilar merece una comparación estructurada antes de comprometer tiempo de ingeniería.

El cronograma realista

Los quickstarts de Hugging Face no muestran esta parte. Un pipeline de grado de producción para una tarea moderadamente compleja lleva de 2 a 4 semanas de generación y filtrado de datos sintéticos, 1 semana de entrenamiento e iteración, y de 2 a 3 semanas de construcción del sistema de evaluación, además de mantenimiento continuo a medida que cambia el dominio de origen.

Los equipos que estiman puramente en cómputo de entrenamiento subestiman consistentemente el proyecto por un factor de tres a cinco. El sistema de evaluación es el activo que sobrevive a cada modelo individual. Lo reutilizas cada vez que cambias el estudiante, reentrenas con datos nuevos o pruebas un nuevo profesor. Trátalo como una inversión duradera, no como el modelo en sí.

La barra de lanzamiento

Un modelo destilado está listo cuando pasa tu suite de evaluación retenida, incluidas las baterías de casos extremos, y sobrevive dos semanas de tráfico en sombra sin sorprender al equipo. No cuando la pérdida de entrenamiento se ve limpia. No cuando MMLU es aceptable. El estudiante más pequeño que supera esas puertas es el que vale la pena poner en producción. Resistir el impulso de comprimir más hasta que haya estado funcionando frente a usuarios reales suele ser la decisión correcta.

Un modelo destilado es un proyecto. Mantener honesto el pipeline de datos sintéticos, el sistema de evaluación actualizado y el estudiante afinado a medida que tu dominio cambia es otro. La mayoría de los equipos manejan lo primero cómodamente y subestiman lo segundo. Si prefieres no tener personal para ambos, contáctanos, y podemos hablar sobre qué partes vale la pena externalizar.

Vea cómo transformamos una plataforma de IA heredada en una solución de crecimiento digital de grado de producción.

Este campo es obligatorio. no es un correo electrónico comercial