Aplicación de parches en clústeres de MSK aprovisionados
De forma periódica, Amazon MSK actualiza el software en los agentes del clúster. El mantenimiento incluye actualizaciones planificadas o reparaciones no planificadas. El mantenimiento planificado incluye actualizaciones del sistema operativo, actualizaciones de seguridad y otras actualizaciones de software necesarias para mantener el estado, la seguridad y el rendimiento del clúster. Realizamos mantenimiento no planificado para resolver degradaciones repentinas de la infraestructura. Realizamos mantenimiento tanto en agentes Standard como en agentes Express, aunque las experiencias son diferentes.
Aplicación de parches en agentes Standard
Las actualizaciones de los agentes Standard no afectan las operaciones de escritura y lectura de las aplicaciones si sigue las prácticas recomendadas.
Amazon MSK utiliza actualizaciones de software continuas para mantener una alta disponibilidad de sus clústeres. Durante este proceso, los agentes se reinician de uno en uno y Kafka traslada automáticamente el liderazgo a otro agente en línea. Los clientes de Kafka disponen de mecanismos integrados para detectar automáticamente el cambio de dirección de las particiones y seguir escribiendo y leyendo los datos en un clúster de MSK. Siga las Prácticas recomendadas para clientes de Apache Kafka para garantizar un funcionamiento fluido del clúster en todo momento, incluso durante los procesos de aplicación de parches.
Tras la desconexión de un agente, es normal que sus clientes cometan errores transitorios de desconexión. También observará durante un breve periodo (hasta 2 minutos, normalmente menos) algunos picos en la latencia de lectura y escritura del p99 (normalmente altos milisegundos, hasta aproximadamente 2 segundos). Estos picos son esperados y se deben a que el cliente vuelve a conectarse a un nuevo agente líder; no afectan en sus productos ni en su consumo y se resolverán al volver a conectarse. Para obtener más información, consulte El agente no está en línea y el cliente realiza una conmutación por error.
También observará un aumento en la métrica UnderReplicatedPartitions, lo cual es esperado, ya que las particiones del agente que se apagó dejan de replicar datos. Esto no afecta a las escrituras y lecturas de las aplicaciones, ya que las réplicas de estas particiones alojadas en otros agentes ahora atienden las solicitudes.
Tras la actualización del software, cuando el agente vuelva a estar en línea, tendrá que “ponerse al día” con los mensajes producidos mientras estaba fuera de línea. Durante la recuperación, también puede observar un aumento en el uso del rendimiento del volumen y de la CPU. Esto no debería afectar a las escrituras y lecturas del clúster si sus agentes disponen de suficientes recursos de CPU, memoria, red y volumen.
Aplicación de parches para agentes Express
No existen periodos de mantenimiento para los agentes Express. Amazon MSK actualiza automáticamente el clúster de forma continua y distribuida en el tiempo, lo que significa que puede esperar reinicios ocasionales y puntuales de agentes a lo largo del mes. Esto garantiza que no necesite planificar ni realizar ajustes en torno a periodos de mantenimiento únicos a nivel de clúster. Como siempre, el tráfico permanecerá ininterrumpido durante el reinicio de un agente, ya que el liderazgo se trasladará a otros agentes que continuarán atendiendo las solicitudes.
Los agentes Express se entregan configurados con ajustes y barreras de protección basados en prácticas recomendadas que hacen que el clúster sea resiliente frente a cambios de carga que se puedan producir durante el mantenimiento. Amazon MSK establece cuotas de rendimiento en los agentes Express para mitigar el impacto de una sobrecarga del clúster, que podría provocar problemas durante los reinicios de agentes. Estas mejoras eliminan la necesidad de notificaciones anticipadas, planificación previa y periodos de mantenimiento cuando se utilizan agentes Express.
Los agentes Express siempre replican los datos en tres copias, por lo que los clientes realizan la conmutación por error de forma automática durante los reinicios. No es necesario preocuparse por que los temas queden inaccesibles, incluso cuando el factor de replicación está configurado en 1 o 2. Además, la sincronización posterior de un agente Express que se reinicia es más rápida que en el caso de los agentes Standard. La mayor velocidad de aplicación de parches en los agentes Express implica una interrupción mínima en la planificación de cualquier actividad del plano de control que tenga programada para el clúster.
Como ocurre con todas las aplicaciones de Apache Kafka, se mantiene un contrato compartido cliente-servidor para los clientes que se conectan a agentes Express. Resulta fundamental configurar los clientes para que puedan gestionar correctamente la conmutación por error del liderazgo entre los agentes. Siga las Prácticas recomendadas para clientes de Apache Kafka para garantizar un funcionamiento fluido del clúster en todo momento, incluso durante la aplicación de parches. Tras el reinicio de un agente, es normal que los clientes experimenten errores transitorios de desconexión. Esto no afecta a las operaciones de producción ni de consumo, ya que los agentes seguidores asumen el liderazgo de las particiones. Sus clientes de Apache Kafka realizarán automáticamente la conmutación por error y comenzarán a enviar solicitudes a los nuevos agentes líderes.