Personalización de Amazon Nova en trabajos SageMaker de formación

Amazon SageMaker Training Jobs es un entorno que te permite entrenar modelos de aprendizaje automático a escala. Aprovisiona y escala automáticamente los recursos de computación, carga datos de entrenamiento de orígenes como Amazon S3, ejecuta el código de entrenamiento y almacena los artefactos del modelo resultantes.

El objetivo del entrenamiento es personalizar el modelo base de Amazon Nova mediante sus datos patentados. El proceso de formación suele incluir pasos para preparar los datos, elegir una receta, modificar los parámetros de configuración de los archivos YAML y enviar un trabajo de formación. El proceso de entrenamiento generará un punto de comprobación des modelo entrenados en un bucket de Amazon S3 administrado por servicios. Puede usar esta ubicación de punto de control para trabajos de evaluación. La personalización de Nova en los trabajos de SageMaker formación almacena los artefactos del modelo en un bucket de Amazon S3 gestionado por el servicio. Los artefactos del depósito administrado por el servicio se cifran con SageMaker claves KMS administradas. Los buckets de Amazon S3 administrados por el servicio no son compatibles actualmente con el cifrado de datos utilizando claves administradas por el cliente.

Descripción general de

Esta sección proporciona una descripción general de las técnicas de personalización y le ayuda a elegir el mejor enfoque para sus necesidades y los datos disponibles.

Dos etapas de la formación de LLM

La formación en modelos lingüísticos de gran tamaño consta de dos etapas principales: la formación previa y la posterior a la formación. Durante el entrenamiento previo, el modelo procesa fragmentos de texto sin procesar y los optimiza para la predicción del siguiente token. Este proceso crea un completador de patrones que absorbe la sintaxis, la semántica, los hechos y los patrones de razonamiento de la web y del texto seleccionado. Sin embargo, el modelo previamente entrenado no comprende las instrucciones, los objetivos del usuario ni el comportamiento apropiado al contexto. Continúa el texto en cualquier estilo que se ajuste a su distribución de entrenamiento. Un modelo previamente entrenado se completa automáticamente en lugar de seguir las instrucciones, produce un formato incoherente y puede reflejar sesgos no deseados o contenido inseguro de los datos de entrenamiento. La formación previa desarrolla la competencia general, no la utilidad de las tareas.

La formación posterior transforma al completador de patrones en un útil asistente. Se realizan varias rondas de ajuste preciso supervisado (SFT) para enseñar al modelo a seguir las instrucciones, cumplir con los esquemas y las políticas, utilizar herramientas y producir resultados fiables imitando demostraciones de alta calidad. Esta alineación enseña al modelo a responder a las instrucciones como tareas, en lugar de responder como texto para continuar. A continuación, se aplica el ajuste preciso del refuerzo (RFT) para optimizar el comportamiento utilizando comentarios mensurables (como verificadores o una LLM-as-a-judge), equilibrando las ventajas y desventajas, como la precisión frente a la brevedad, la seguridad frente a la cobertura, o el razonamiento en varios pasos bajo restricciones. En la práctica, se alternan la SFT y la RFT en ciclos para convertir el modelo previamente entrenado en un sistema fiable y alineado con las políticas que realiza tareas complejas de forma coherente.

Elija el enfoque de personalización adecuado

En esta sección trataremos las estrategias de personalización posteriores al entrenamiento: RFT y SFT.

Ajuste fino de refuerzos (RFT)

El ajuste preciso por refuerzo mejora el rendimiento del modelo mediante señales de retroalimentación (puntuaciones medibles o recompensas que indican la calidad de la respuesta) en lugar de una supervisión directa con respuestas exactas y correctas. A diferencia de los ajustes supervisados tradicionales, que aprenden de los pares de entradas y salidas, la RFT utiliza funciones de recompensa para evaluar las respuestas del modelo y lo optimiza de forma iterativa para maximizar estas recompensas. Este enfoque funciona bien para tareas en las que es difícil definir el resultado exacto y correcto, pero se puede medir de forma fiable la calidad de la respuesta. La RFT permite a los modelos aprender comportamientos y preferencias complejos mediante pruebas y comentarios, lo que la hace ideal para aplicaciones que requieren una toma de decisiones matizada, una resolución creativa de problemas o el cumplimiento de criterios de calidad específicos que se puedan evaluar mediante programación. Por ejemplo, responder a preguntas legales complejas es un caso de uso ideal para la RFT, ya que se quiere enseñar al modelo a razonar mejor para responder a las preguntas con mayor precisión.

Funcionamiento

Para afinar los refuerzos, se parte de una base ajustada a las instrucciones y se trata cada pregunta como si fuera un torneo pequeño. Para una entrada determinada, se toman muestras de un puñado de respuestas candidatas del modelo, se puntúa cada una con la función de recompensa y, a continuación, se clasifican dentro de ese grupo. El paso de actualización empuja al modelo a hacer que los candidatos con mayor puntuación tengan más probabilidades la próxima vez y que los que obtengan puntuaciones más bajas sean menos probables, mientras que una stay-close-to-baseline restricción evita que el comportamiento se desvíe o se vuelva verboso o abusivo. Repites este ciclo con muchas indicaciones, actualizando los casos difíciles, ajustando los verificadores o juzgando las rúbricas cuando ves vulnerabilidades y haciendo un seguimiento continuo de las métricas de las tareas.

¿Cuándo usar la RFT

Las tareas que más se benefician de la RFT comparten varios rasgos. Tienen señales de éxito cuantificables incluso cuando es difícil especificar un único resultado correcto. Admiten un crédito parcial o una calificación de calidad, por lo que puedes clasificar las respuestas mejores frente a las peores dentro de un mensaje o mediante una función de recompensa. Implican varios objetivos que deben equilibrarse (como la precisión con la brevedad, la claridad, la seguridad o el costo). Exigen el cumplimiento de restricciones explícitas que se pueden comprobar mediante programación. Funcionan en entornos mediados por herramientas o basados en el entorno, donde los resultados son observables (éxito o fracaso, latencia, uso de recursos). Ocurren en regímenes poco rigurosos, en los que la recolección de objetivos de oro es cara, pero la retroalimentación automatizada o basada en rúbricas es abundante. La RFT funciona mejor cuando se puede convertir la calidad en un escalar o una clasificación fiable y se quiere que el modelo amplifique de forma preferencial los comportamientos con puntuaciones más altas sin necesidad de etiquetar objetivos exhaustivos.

Considere otros métodos cuando:

Tiene pares de entrada-salida etiquetados abundantes y confiables: utilice SFT
La principal brecha es el conocimiento o la jerga: utilice la generación aumentada por recuperación (RAG)
Tu señal de recompensa es ruidosa o poco fiable, y no podrás arreglarla con mejores rúbricas o comprobadores. Estabiliza eso primero antes de la RFT

¿Cuándo no usar la RFT

Evite la RFT en las siguientes situaciones:

Puede producir pares de entrada-salida etiquetados y confiables de forma económica (la SFT es más simple, económica y estable)
La brecha es el conocimiento o la jerga más que el comportamiento (utilice RAG)
Tu señal de recompensa es ruidosa, dispersa, fácil de manipular o cara o lenta de calcular (arregla primero el evaluador)
El rendimiento básico es casi nulo (inicie con SFT antes de optimizar las preferencias)
La tarea tiene esquemas deterministas, un formato estricto o una única respuesta correcta (la SFT o la validación basada en reglas funcionan mejor)
Los presupuestos ajustados de latencia o costes no pueden absorber el muestreo o la exploración adicionales que requiere la RFT
Las restricciones de seguridad o políticas no están especificadas con precisión ni se pueden hacer cumplir en la recompensa

Si puede señalar «la respuesta correcta», utilice SFT. Si necesita nuevos conocimientos, utilice RAG. Usa la RFT solo después de tener una base sólida y una función de hard-to-exploit recompensa sólida y rápida.

Refinamiento supervisado (SFT)

El ajuste fino supervisado capacita al LLM en un conjunto de datos de pares de entrada-salida etiquetados por humanos para su tarea. Debe proporcionar ejemplos de indicaciones (preguntas, instrucciones, etc.) con las respuestas correctas o deseadas, y continuar entrenando el modelo con estos ejemplos. El modelo ajusta sus ponderaciones para minimizar una pérdida supervisada (por lo general, la entropía cruzada entre sus predicciones y los indicadores de salida objetivo). Esta es la misma formación que se utiliza en la mayoría de las tareas de aprendizaje automático supervisadas, que se aplica para especializar un LLM.

La SFT cambia el comportamiento, no el conocimiento. No le enseña al modelo nuevos hechos o jerga que no haya visto en la formación previa. Enseña al modelo cómo responder, no qué debe saber. Si necesita nuevos conocimientos de dominio (como la terminología interna), utilice la generación de recuperación aumentada (RAG) para proporcionar ese contexto en el momento de la inferencia. A continuación, SFT añade el comportamiento de seguimiento de instrucciones deseado en la parte superior.

Funcionamiento

SFT optimiza la LLM minimizando la pérdida media de entropía cruzada en los tokens de respuesta, tratando los tokens rápidos como contexto y ocultándolos ante la pérdida. El modelo internaliza el estilo, la estructura y las reglas de decisión del objetivo, y aprende a generar la forma correcta de completar cada mensaje. Por ejemplo, para clasificar los documentos en categorías personalizadas, se ajusta el modelo con indicaciones (el texto del documento) y terminaciones etiquetadas (las etiquetas de las categorías). Se entrena con esos pares hasta que el modelo muestre la etiqueta correcta para cada indicador con una probabilidad alta.

Puede realizar la SFT con tan solo unos cientos de ejemplos y ampliarla hasta unos cientos de miles. Las muestras de SFT deben ser de alta calidad y estar directamente alineadas con el comportamiento deseado del modelo.

¿Cuándo usar SFT?

Utilice SFT cuando tenga una tarea bien definida con los resultados deseados claros. Si puede indicar explícitamente «Con una entrada X, la salida correcta es Y» y recopilar ejemplos de dichas asignaciones, el ajuste supervisado es una buena opción. SFT sobresale en los siguientes escenarios:

Tareas de clasificación estructuradas o complejas: clasifique los documentos internos o los contratos en muchas categorías personalizadas. Con la SFT, el modelo aprende estas categorías específicas mejor que si las solicita por sí solo.
Tareas de respuesta a preguntas o de transformación con respuestas conocidas: ajuste un modelo para que responda a las preguntas de la base de conocimientos de una empresa o convierta los datos de un formato a otro en el que cada entrada tenga una respuesta correcta.
Coherencia de formato y estilo: entrene al modelo para que responda siempre en un formato o tono determinado ajustando los ejemplos del formato o tono correctos. Por ejemplo, si se capacita con pares de pronta respuesta que muestran la voz de una marca en particular, se enseña al modelo a generar resultados con ese estilo. El comportamiento de seguir las instrucciones se suele enseñar inicialmente a través de la SFT, con ejemplos seleccionados de buen comportamiento de los asistentes.

La SFT es la forma más directa de enseñarle a un maestro una nueva habilidad o comportamiento cuando se puede especificar cuál es el comportamiento correcto. Utiliza la comprensión lingüística existente en el modelo y la centra en su tarea. Use SFT cuando desee que el modelo haga algo específico y tenga o pueda crear un conjunto de datos de ejemplos.

Utilice SFT cuando pueda reunir pares de pronósticos y respuestas de alta calidad que reflejen fielmente el comportamiento deseado. Se adapta a tareas con objetivos claros o formatos deterministas, como esquemas, llamadas de funciones o herramientas, y respuestas estructuradas en las que la imitación es una señal de entrenamiento adecuada. El objetivo es moldear el comportamiento: enseñar al modelo a tratar las indicaciones como tareas, a seguir las instrucciones, a adoptar políticas de tono y rechazo y a producir un formato coherente. Planifique al menos cientos de demostraciones en las que la calidad, la coherencia y la deduplicación de los datos sean más importantes que el volumen bruto. Para realizar una actualización sencilla y rentable, utilice métodos eficientes en cuanto a parámetros, como la adaptación de bajo rango, para entrenar adaptadores pequeños y, al mismo tiempo, dejar intacta la mayor parte de la estructura básica.

¿Cuándo no usar SFT

No utilice la SFT cuando la brecha sea de conocimiento y no de comportamiento. No le enseña al modelo nuevos hechos, jerga o eventos recientes. En esos casos, utilice la generación de recuperación aumentada para sacar conclusiones del conocimiento externo. Evita la SFT cuando puedes medir la calidad pero no puedes etiquetar una sola respuesta correcta. Utilice el ajuste de los refuerzos con recompensas verificables o con el fin de LLM-as-a-judge optimizar esas recompensas directamente. Si tus necesidades o tu contenido cambian con frecuencia, confía en la recuperación y el uso de las herramientas en lugar de volver a entrenar el modelo.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Fórmulas de Amazon Nova

Destilación