Ingesta de vectores - OpenSearch Servicio Amazon

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ingesta de vectores

La ingestión vectorial le ayuda a incorporar e indexar OpenSearch dominios y OpenSearch colecciones sin servidor con rapidez. El servicio examina su dominio o colección y crea una canalización de ingestión en su nombre para cargar sus datos. OpenSearch Vector ingestion gestiona por usted la ingesta e indexación de su dominio o colección.

Puede acelerar y optimizar el proceso de indexación habilitando las funciones. Aceleración por GPU para la indexación vectorial Optimice automáticamente Con la ingestión de vectores, no necesita administrar la infraestructura subyacente, parchear el software ni escalar los clústeres para respaldar la indexación e ingestión de sus bases de datos vectoriales. Esto le permite crear rápidamente su base de datos vectorial para satisfacer sus necesidades.

Funcionamiento

La ingestión de vectores examina su dominio o colección y su índice. Puede configurar manualmente los campos de índice vectorial o OpenSearch permitir el uso de la configuración automática.

La ingestión de vectores utiliza OpenSearch la ingestión (OSI) como canalización de datos entre Amazon S3 y. OpenSearch El servicio procesa los vectores en paralelo para optimizar la velocidad de ingesta y, al mismo tiempo, respetar los límites de escalado de OSI y OpenSearch.

OpenSearch Precios de ingestión vectorial

En un momento específico, solo pagas por la cantidad de vectores ingeridos OCUs que se asignen a una canalización, independientemente de si hay datos circulando por la canalización. OpenSearch La ingestión vectorial se adapta inmediatamente a tus cargas de trabajo al aumentar o reducir la capacidad de la canalización en función del uso.

Para obtener información completa sobre los precios, consulta los precios OpenSearch de Amazon Service.

Requisitos previos

Antes de utilizar la ingestión de vectores, asegúrate de disponer de los siguientes recursos:

  • Depósito de Amazon S3 que contiene sus documentos OpenSearch JSON en formato parquet

  • OpenSearch recurso: un dominio o una colección

  • OpenSearch versión 2.19 o posterior (necesaria para la optimización automática de la integración)

Crear una base de datos vectorial

Utilice el flujo de trabajo de creación de trabajos de ingestión de vectores para configurar el ajuste automatizado de índices vectoriales y acelerar la creación de índices a gran escala.

nota

El contenido procedimental de esta sección está sujeto a cambios a medida que se finalice la interfaz de usuario. Es posible que el flujo de trabajo se actualice en futuras versiones para reflejar la experiencia de consola más reciente.

Para crear un trabajo de inyección vectorial
  1. En la sección de detalles del trabajo de ingestión de vectores, en Nombre, introduzca un nombre para el trabajo de ingestión.

  2. En la sección Fuente de datos, configure lo siguiente:

    1. Para el URI de Amazon S3, introduzca la ubicación del bucket de Amazon S3 que contiene los documentos JSON de OpenSearch servicio.

    2. Elija Browse Amazon S3 para seleccionar entre los buckets disponibles o seleccione View para obtener una vista previa del contenido del bucket.

    3. En Tipo de contenido, selecciona una de las siguientes opciones:

      • Vectores: los documentos ya contienen vectores y no es necesario generar más vectores incrustados.

      • Texto, imagen o audio: los documentos contienen contenido, como texto, imágenes o bytes de audio, que deben codificarse en incrustaciones vectoriales.

  3. En la sección Permisos de la fuente de datos, configure los permisos de acceso:

    1. En Rol de IAM, elija una de las opciones siguientes:

      • Create a new role (Crear un nuevo rol)

      • Utilice un rol existente

    2. En el nombre del rol de IAM, introduzca un nombre para el rol.

  4. En la sección Destino, configure el punto final del OpenSearch servicio:

    1. Para Endpoint, selecciona Elige una opción para seleccionar entre tus dominios o colecciones compatibles en la región actual.

    2. Seleccione Siguiente para continuar con el punto final seleccionado.

  5. Seleccione Siguiente para continuar con el paso siguiente o Cancelar para salir sin guardar nada.

La ingestión de vectores funciona con las siguientes funciones de Amazon OpenSearch Service para optimizar el rendimiento de las bases de datos vectoriales:

Aceleración por GPU para la indexación vectorial

La aceleración de la GPU reduce el tiempo necesario para crear, actualizar y eliminar índices vectoriales. Si se utiliza con la ingesta de vectores, se puede acelerar considerablemente el proceso de ingesta e indexación de bases de datos vectoriales a gran escala.

Optimice automáticamente

La optimización automática descubre automáticamente las compensaciones óptimas entre la latencia de búsqueda, la calidad y los requisitos de memoria. La ingestión de vectores puede aplicar recomendaciones de optimización automática durante el proceso de ingestión para garantizar que los índices vectoriales estén configurados de forma óptima.

Para obtener los mejores resultados, considere habilitar tanto la aceleración de la GPU como la optimización automática cuando utilice la ingestión de vectores para crear bases de datos vectoriales a gran escala.