Introducción a Amazon Managed Service para Apache Flink (API de DataStream) - Managed Service para Apache Flink

Amazon Managed Service para Apache Flink Amazon (Amazon MSF) se denominaba anteriormente Amazon Kinesis Data Analytics para Apache Flink.

Introducción a Amazon Managed Service para Apache Flink (API de DataStream)

En esta sección presenta una introducción a los conceptos fundamentales de Managed Service para Apache Flink y la implementación de una aplicación en Java con la API de DataStream. Describe las opciones disponibles para crear y probar sus aplicaciones. También proporciona instrucciones para instalar las herramientas necesarias para completar los tutoriales de esta guía y crear su primera aplicación.

Revisión de los componentes de la aplicación de Managed Service para Apache Flink

nota

Amazon Managed Service para Apache Flink es compatible con todas las API de Apache Flink y, potencialmente, con todos los lenguajes de JVM. Para obtener más información, consulte Flink's APIs.

Según la API que se elija, la estructura de la aplicación y la implementación son ligeramente diferentes. En este tutorial de introducción se describe la implementación de las aplicaciones mediante la API de DataStream en Java.

Para procesar los datos, su aplicación de Managed Service para Apache Flink utiliza una aplicación Python que procesa las entradas y produce las salidas mediante el tiempo de ejecución de Apache Flink.

Una aplicación de Managed Service para Apache Flink típica tiene los siguientes componentes:

  • Propiedades de tiempo de ejecución: puede usar las propiedades de tiempo de ejecución para pasar los parámetros de configuración a su aplicación y cambiarlos sin modificar ni volver a publicar el código.

  • Fuentes: la aplicación consume datos de una o más fuentes. Una fuente utiliza un conector para leer datos de un sistema externo, como un flujo de datos de Kinesis o un bucket de Kafka. Para obtener más información, consulte Agregación de orígenes de datos de streaming.

  • Operadores: la aplicación procesa los datos mediante uno o más operadores. Un operador puede transformar, enriquecer o agregar datos. Para obtener más información, consulte Operadores.

  • Receptores: la aplicación envía los datos a fuentes externas a través de los receptores. Un recepción utiliza un conectorv para enviar datos a un flujo de datos de Kinesis, un flujo de datos de Kinesis, un flujo de Kafka, Amazon S3 o una base de datos relacional. También se puede utilizar un conector especial para imprimir la salida únicamente con fines de desarrollo. Para obtener más información, consulte Escritura de datos mediante receptores.

La aplicación requiere algunas dependencias externas, como los conectores Flink que utiliza la aplicación o, posiblemente, una biblioteca Java. Para ejecutarse en Amazon Managed Service para Apache Flink, la aplicación debe empaquetarse junto con las dependencias en un fat-jar y cargarse en un bucket de Amazon S3. Luego debe crear la aplicación de Managed Service para Apache Flink. Debe pasar la ubicación del paquete de códigos, junto con cualquier otro parámetro de configuración del tiempo de ejecución.

En este tutorial se muestra cómo usar Apache Maven para empaquetar la aplicación y cómo ejecutarla localmente en el IDE que se elija.

Cumplimiento de los requisitos previos para realizar los ejercicios

Para completar los pasos de esta guía, debe disponer de lo siguiente:

  • Cliente Git. Si aún no lo ha hecho, instale el cliente Git.

  • Java Development Kit (JDK), versión 11 . Instale un Java JDK 11 y establezca la variable de entorno JAVA_HOME para señalar la ubicación de la instalación del JDK. Si no tiene un JDK 11, se puede usar Amazon Coretto 11 o cualquier otro JDK estándar de su elección.

    • Para comprobar que JDK se haya instalado correctamente, ejecute el siguiente comando. El resultado será diferente si utiliza un JDK que no sea Amazon Corretto. Asegúrese de que la versión sea 11.x.

      $ java --version openjdk 11.0.23 2024-04-16 LTS OpenJDK Runtime Environment Corretto-11.0.23.9.1 (build 11.0.23+9-LTS) OpenJDK 64-Bit Server VM Corretto-11.0.23.9.1 (build 11.0.23+9-LTS, mixed mode)
  • Apache Maven. Instale Apache Maven si aún no lo ha hecho. Para obtener información sobre cómo instalarlo, consulte Instalación de Apache Maven.

    • Para probar la instalación de Apache Maven, introduzca lo siguiente:

    $ mvn -version
  • IDE para desarrollo local Se recomienda utilizar un entorno de desarrollo, como Eclipse Java Neon o IntelliJ Idea para desarrollar y compilar su aplicación.

    • Para probar la instalación de Apache Maven, introduzca lo siguiente:

    $ mvn -version

Para empezar, vaya a Configurar una cuenta de AWS y crear un usuario administrador.