Configuración de transferencias AWS DataSync con Google Cloud Storage - AWS DataSync

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de transferencias AWS DataSync con Google Cloud Storage

Con AWS DataSync, puede transferir datos entre Google Cloud Storage y los siguientes servicios de almacenamiento de AWS:

  • Amazon S3

  • Amazon EFS

  • Amazon FSx for Windows File Server

  • Amazon FSx for Lustre

  • Amazon FSx for OpenZFS

  • Amazon FSx for ONTAP de NetApp

Para iniciar la configuración de la transferencia, cree una ubicación para Google Cloud Storage. Esta ubicación puede funcionar como origen o como destino de la transferencia. Un agente de DataSync es necesario únicamente cuando se transfieren datos entre Google Cloud Storage y Amazon EFS o Amazon FSx, o cuando se utilizan tareas en modo básico. Las transferencias de datos en modo mejorado entre Google Cloud Storage y Amazon S3 no requieren un agente.

nota

Para la conectividad de nube privada entre Google Cloud Storage y AWS, utilice el modo básico con agentes.

Descripción general

DataSync utiliza la API XML de Google Cloud Storage para las transferencias de datos. Esta API proporciona una interfaz compatible con Amazon S3 para leer y escribir datos en buckets de Google Cloud Storage.

Cuando utiliza el modo básico para las transferencias, puede implementar el agente en Google Cloud Storage o en la VPC de Amazon.

Agent in Google Cloud
  1. Se implementa un agente de DataSync en su entorno de Google Cloud.

  2. El agente lee el bucket de Google Cloud Storage con una clave de código de autenticación de mensajes basado en hash (HMAC).

  3. Los objetos del bucket de Google Cloud Storage se transfieren de forma segura a través de TLS 1.3 hacia una Nube de AWS mediante un punto de conexión público.

  4. El servicio DataSync escribe los datos en su bucket de S3.

En el siguiente diagrama se ilustra la transferencia.

En un ejemplo de transferencia de DataSync, se muestra cómo se transfieren los datos de objetos de un bucket de Google Cloud Storage a un bucket de S3. En primer lugar, el agente de DataSync se implementa en el entorno de Google Cloud. A continuación, el agente de DataSync lee el bucket de Google Cloud Storage. Los datos se mueven de forma segura a través de un punto de conexión público hacia AWS, donde DataSync escribe los objetos en un bucket de S3 en la misma Región de AWS donde se utiliza DataSync.
Agent in your VPC
  1. Se implementa un agente de DataSync en una nube privada virtual (VPC) de su entorno de AWS.

  2. El agente lee el bucket de Google Cloud Storage con una clave de código de autenticación de mensajes basado en hash (HMAC).

  3. Los objetos del bucket de Google Cloud Storage se transfieren de forma segura a través de TLS 1.3 hacia la Nube de AWS mediante un punto de conexión de VPC privado.

  4. El servicio DataSync escribe los datos en su bucket de S3.

En el siguiente diagrama se ilustra la transferencia.

En un ejemplo de transferencia de DataSync, se muestra cómo se transfieren los datos de objetos de un bucket de Google Cloud Storage a un bucket de S3. En primer lugar, el agente de DataSync se implementa en una VPC en AWS. A continuación, el agente de DataSync lee el bucket de Google Cloud Storage. Los datos se mueven de forma segura a través de un punto de conexión de VPC hacia AWS, donde DataSync escribe los objetos en un bucket de S3 en la misma Región de AWS donde se utiliza DataSync.

Costos

Las tarifas asociadas a esta migración pueden incluir lo siguiente:

  • Ejecución de una instancia de máquina virtual (VM) de Google Compute Engine (si implementa el agente de DataSync en Google Cloud)

  • Ejecución de una instancia de Amazon EC2 (si implementa el agente de DataSync en una VPC dentro de AWS)

  • Transferencia de datos mediante DataSync, incluidos los cargos por solicitudes relacionados con Google Cloud Storage y Amazon S3 (si S3 es una de las ubicaciones de transferencia)

  • Transferencia de datos desde Google Cloud Storage

  • Almacenamiento de datos en Amazon S3

Requisitos previos

Antes de comenzar, haga lo siguiente si aún no lo ha hecho:

Creación de una clave HMAC para su bucket de Google Cloud Storage

DataSync usa una clave HMAC asociada a su cuenta de servicio de Google para autenticarse y leer el bucket desde el que transfiere los datos. (Para ver instrucciones detalladas sobre cómo crear claves HMAC, consulte la Documentación de Google Cloud Storage).

Cómo crear una clave HMAC
  1. Cree una clave HMAC para su cuenta de servicio de Google.

  2. Asegúrese de que su cuenta de servicio de Google tenga al menos permisos Storage Object Viewer.

  3. Guarde el ID y el secreto de acceso de la clave HMAC en un lugar seguro.

    Necesitará estos elementos más adelante para configurar la ubicación de origen de DataSync.

Paso 2: configurar su red

La configuración de red es necesaria únicamente cuando utiliza un agente de DataSync con la transferencia. Los requisitos de red para esta migración dependen del lugar en el que decida implementar el agente.

Si quiere alojar su agente de DataSync en Google Cloud, configure su red para permitir las transferencias de DataSync a través de un punto de conexión público.

Si quiere alojar su agente en AWS, necesita una VPC con un punto de conexión de interfaz. DataSync utiliza el punto de conexión de VPC para facilitar la transferencia.

Cómo configurar la red para un punto de conexión de VPC
  1. Si no lo tiene, cree una VPC en la misma Región de AWS que su bucket de S3.

  2. Cree una subred privada para su VPC.

  3. Creación de un punto de conexión de VPC para DataSync.

  4. Configure su red para permitir las transferencias de DataSync a través de un punto de conexión de servicio de VPC.

    Para ello, modifique el grupo de seguridad asociado a su punto de conexión de servicio de VPC.

Paso 3: Creación de un agente de DataSync (opcional)

Un agente de DataSync es necesario únicamente cuando utiliza tareas en modo básico. Si utiliza el modo mejorado para transferir datos entre Google Cloud Storage (GCS) y Amazon S3, no se requiere un agente. Si desea utilizar el modo básico, necesita un agente de DataSync que pueda acceder al bucket de GCS.

En este escenario, el agente de DataSync se ejecuta en el entorno de Google Cloud.

Antes de empezar: instala la CLI de Google Cloud.

Cómo crear el agente para Google Cloud
  1. Abra la consola de AWS DataSync en https://console.aws.amazon.com/datasync/.

  2. En el panel de navegación situado a la izquierda, elija Agentes y luego, Crear agente.

  3. En Hipervisor, seleccione VMware ESXi y, a continuación, seleccione Descargar la imagen para descargar el archivo .zip que contiene el agente.

  4. Abra un terminal. Ejecute el siguiente comando para descomprimir la imagen:

    unzip AWS-DataSync-Agent-VMWare.zip
  5. Extraiga el contenido del archivo .ova del agente, empezando por aws-datasync ejecutando el siguiente comando:

    tar -xvf aws-datasync-2.0.1655755445.1-x86_64.xfs.gpt.ova
  6. Importe el archivo .vmdk del agente a Google Cloud ejecutando el siguiente comando CLI de Google Cloud:

    gcloud compute images import aws-datasync-2-test \ --source-file INCOMPLETE-aws-datasync-2.0.1655755445.1-x86_64.xfs.gpt-disk1.vmdk \ --os centos-7
    nota

    La importación del archivo .vmdk puede tardar hasta dos horas.

  7. Cree e inicie una instancia de máquina virtual para la imagen del agente que acaba de importar.

    La instancia necesita las siguientes configuraciones para su agente. (Para ver instrucciones detalladas sobre cómo crear una instancia, consulte la Documentación de Google Cloud Compute Engine).

    • En el tipo de máquina, seleccione una de las siguientes opciones:

      • e2-standard-8: para la ejecución de tareas de DataSync que funcionan con hasta 20 millones de objetos.

      • e2-standard-16: para la ejecución de tareas de DataSync con más de 20 millones de objetos.

    • Para ver la configuración del disco de arranque, vaya a la sección de imágenes personalizadas. A continuación, elija la imagen del agente de DataSync que acaba de importar.

    • Para configurar la cuenta de servicio, elija su cuenta de servicio de Google (la misma cuenta que utilizó en el paso 1).

    • Para la configuración del firewall, elija la opción para permitir el tráfico HTTP (puerto 80).

      Para activar el agente de DataSync, el puerto 80 debe estar abierto en el agente. No se requiere que el puerto sea accesible públicamente. Una vez activado, DataSync cierra el puerto.

  8. Una vez que la instancia de máquina virtual esté en ejecución, anote la dirección IP pública.

    Necesitará esta dirección IP para activar el agente.

  9. Vuelva a la consola de DataSync. En la pantalla Crear agente, donde descargó la imagen del agente, haga lo siguiente para activar el agente:

    • En el tipo de punto de conexión, elija la opción de puntos de conexión de servicio público (por ejemplo, puntos de conexión de servicio público en el Este de EE. UU. (Ohio)).

    • En Clave de activación, elija Obtener automáticamente la clave de activación de su agente.

    • En Dirección del agente, introduzca la dirección IP pública de la instancia de máquina virtual del agente que acaba de crear.

    • Seleccione Obtener clave.

  10. Asigne un nombre para el agente y, a continuación, elija Crear agente.

Su agente está en línea y listo para transferir datos.

En este escenario, el agente se ejecuta como una instancia de Amazon EC2 en una VPC que está asociada a su Cuenta de AWS.

Antes de empezar: configure AWS Command Line Interface (AWS CLI).

Cómo crear el agente para su VPC
  1. Abra un terminal. Asegúrese de configurar su perfil de AWS CLI para usar la cuenta que está asociada a su bucket de S3.

  2. Copie el siguiente comando. Sustituya vpc-region por la Región de AWS donde reside la VPC (por ejemplo, us-east-1).

    aws ssm get-parameter --name /aws/service/datasync/ami --region vpc-region
  3. Ejecute el comando. En la salida, anote la propiedad "Value".

    Este valor es el ID de imagen de máquina de Amazon (AMI) de DataSync para la región que especificó. Por ejemplo, un ID de AMI podría ser ami-1234567890abcdef0.

  4. Copie la siguiente URL. De nuevo, sustituya vpc-region por la Región de AWS donde reside la VPC. Luego, sustituya ami-id por el ID de AMI que anotó en el paso anterior.

    https://console.aws.amazon.com/ec2/v2/home?region=vpc-region#LaunchInstanceWizard:ami=ami-id
  5. Pegue la URL en un navegador.

    Aparece la página de inicio de la instancia de Amazon EC2 en la Consola de administración de AWS.

  6. Para Tipo de instancia, seleccione una de las instancias recomendadas de Amazon EC2 para agentes de DataSync.

  7. En Par de claves, seleccione un par de claves existente o cree uno nuevo.

  8. En Configuración de red, elija la VPC y la subred donde quiera implementar el agente.

  9. Seleccione Iniciar instancia.

  10. Una vez que la instancia de Amazon EC2 se esté ejecutando, elija el punto de conexión de VPC.

  11. Activación del agente.

Paso 4: crear una ubicación de origen de DataSync para su bucket de Google Cloud Storage

Para configurar una ubicación de DataSync para su bucket de Google Cloud Storage, necesita el ID y el secreto de acceso de la clave HMAC que creó en el paso 1.

Cómo crear la ubicación de origen de DataSync
  1. Abra la consola de AWS DataSync en https://console.aws.amazon.com/datasync/.

  2. En el panel de navegación situado a la izquierda, expanda Transferencia de datos y, a continuación, seleccione Ubicaciones y Crear ubicación.

  3. En Tipo de ubicación, seleccione Almacenamiento de objetos.

  4. En Servidor, introduzca storage.googleapis.com.

  5. En Nombre del bucket, introduzca el nombre del bucket de Google Cloud Storage.

  6. En Carpeta, introduzca un prefijo de objeto.

    DataSync solo copia los objetos con este prefijo.

  7. Si la transferencia requiere un agente, seleccione Usar agentes y, a continuación, seleccione el agente que creó en el Paso 3.

  8. Amplíe Configuración adicional. En Protocolo del servidor, seleccione HTTPS. En Puerto del servidor, seleccione 443.

  9. Desplácese hasta la sección Autenticación. Asegúrese de que la casilla Requiere credenciales esté seleccionada y, a continuación, haga lo siguiente:

  10. Seleccione Crear ubicación.

Paso 5: crear una ubicación de destino de DataSync para su bucket de S3

Necesita una ubicación de DataSync donde desea que terminen sus datos.

Cómo crear la ubicación de destino de DataSync
  1. Abra la consola de AWS DataSync en https://console.aws.amazon.com/datasync/.

  2. En el panel de navegación situado a la izquierda, expanda Transferencia de datos y, a continuación, seleccione Ubicaciones y Crear ubicación.

  3. Cree una ubicación de DataSync para el bucket de S.

    Si implementó el agente de DataSync en la VPC, en este tutorial se supone que el bucket de S3 está en la misma Región de AWS que la VPC y el agente de DataSync.

Paso 6: crear e iniciar una tarea de DataSync

Con las ubicaciones de origen y destino configuradas, puede empezar a transferir los datos hacia AWS.

Cómo crear e iniciar la tarea de DataSync
  1. Abra la consola de AWS DataSync en https://console.aws.amazon.com/datasync/.

  2. En el panel de navegación situado a la izquierda, expanda Transferencia de datos; luego, seleccione Tareas y, a continuación, seleccione Crear tarea.

  3. En la página Configurar ubicación de origen, haga lo siguiente:

    1. Elija Elegir una ubicación existente.

    2. Elija la ubicación de origen que creó en el paso 4 y, a continuación, elija Siguiente.

  4. En la página Configurar ubicación de destino, haga lo siguiente:

    1. Elija Elegir una ubicación existente.

    2. Elija la ubicación de destino que creó en el paso 5 y, a continuación, seleccione Siguiente.

  5. En la página Configurar ajustes, haga lo siguiente:

    1. En Configuración de transferencia de datos, expanda Ajustes adicionales y desactive la casilla Copiar etiquetas de objetos.

      importante

      Dado que la API XML de Google Cloud Storage no admite la lectura ni la escritura de etiquetas de objetos, la tarea de DataSync podría fallar si intenta copiar etiquetas de objetos.

    2. Configure cualquier otro ajuste de tareas que desee y, a continuación, seleccione Siguiente.

  6. En la página Revisar, revise los ajustes y luego seleccione Crear tarea.

  7. En la página de detalles de la tarea, elija Iniciar y, a continuación, elija una de las siguientes acciones:

    • Para ejecutar la tarea sin modificarla, seleccione Comenzar con los valores predeterminados.

    • Para modificar la tarea antes de ejecutarla, elija Comenzar con las opciones principales.

Cuando finalice la tarea, verá los objetos del bucket de Google Cloud Storage en el bucket de S3.