Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Detalles del flujo de trabajo del agente de actualización de Spark
Para iniciar el proceso de actualización, necesitarás clonar el código de la aplicación Spark en tu entorno de desarrollador (localmente EC2 o en Amazon SageMaker Unified Studio IDE Spaces), preferiblemente con el control de versiones de Git inicializado. Además, se debe aprovisionar y acceder a un clúster de EMR que ejecute la versión de Spark de destino. Por último, se debe configurar una ruta de bucket de Amazon S3 designada para almacenar los artefactos de implementación y el resumen de la actualización durante todo el proceso de actualización.
Una vez establecidos estos requisitos, puede enviar un mensaje como el siguiente para iniciar el flujo de trabajo de actualización:
Upgrade my Spark application <local-project-path> from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <cluster-id> to run the validation and s3 paths s3://<please fill in your staging bucket path> to store updated application artifacts.
En este punto, el agente organizará la actualización mediante herramientas especializadas (para obtener más información). El flujo de trabajo sigue estos pasos:
-
Generar un plan: el agente analizará la estructura del proyecto y generará un plan de actualización. Revise el plan y dé su consentimiento para continuar.
-
Revisión y personalización del plan: cuando se le pida que revise el plan, tendrá varias opciones:
-
Proceda como está: acepte el plan y continúe con la ejecución
-
Envíe sus comentarios: personalice el plan de la siguiente manera:
-
Eliminar pasos innecesarios. Ejemplo: eliminar cualquier ejecución de una prueba de integración. Solo compile/build localmente, luego proceda a la validación de EMR.
-
Añadir pasos adicionales: ejemplo: añadir un paso para ejecutar el archivo de prueba
tests/test_jobs/test_etl_job_x.pyantes de la validación EMR. -
Modificación del enfoque de actualización: ejemplo: aplique Python 3.10 y Java 17 durante los pasos de compilación y validación.
-
-
-
El agente regenerará el plan en función de sus comentarios y volverá a solicitar su consentimiento. Este proceso continúa hasta que apruebes el plan final
-
Compilar y compilar: el agente realizará cambios iterativos para corregir los errores de compilación hasta que la aplicación se compile y se compile correctamente.
-
Ejecute pruebas unitarias y de integración: si el proyecto tiene pruebas, el agente las ejecutará una vez que la compilación se haya realizado correctamente. Si alguna prueba falla, el agente modificará el código fuente de forma iterativa hasta que pasen las pruebas antes de proceder a la validación de EMR.
-
Correcciones y validación en tiempo de ejecución: el agente validará la aplicación en el clúster de EMR de destino y corregirá de forma iterativa cualquier error de tiempo de ejecución hasta que la validación se realice correctamente. Al finalizar, verá un resumen de todos los cambios realizados para garantizar la compatibilidad.
-
Resumen de la actualización: una vez finalizada la actualización, el agente proporcionará un resumen de todos los cambios de código y configuración, las actualizaciones de las versiones dependientes y cualquier discrepancia detectada en la calidad de los datos para que lo revises.