Aufnahme von Vektoren - OpenSearch Amazon-Dienst

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufnahme von Vektoren

Vector Ingestion hilft Ihnen dabei, Domains und serverlose Sammlungen schnell aufzunehmen und zu OpenSearch indexieren. OpenSearch Der Service untersucht Ihre Domain oder Sammlung und erstellt in Ihrem Namen eine Ingestion-Pipeline, in die Ihre Daten geladen werden. OpenSearch Die Erfassung und Indexierung Ihrer Domain oder Sammlung werden von Vector Ingestion für Sie verwaltet.

Sie können den Indexierungsprozess beschleunigen und optimieren, indem Sie die Funktionen aktivieren. GPU-Beschleunigung für die Vektorindizierung Automatisch optimieren Mit Vector Ingestion müssen Sie nicht die zugrundeliegende Infrastruktur und Patch-Software verwalten oder Cluster skalieren, um die Indexierung und Erfassung Ihrer Vektordatenbank zu unterstützen. Auf diese Weise können Sie Ihre Vektordatenbank schnell an Ihre Bedürfnisse anpassen.

Funktionsweise

Vector Ingestion untersucht Ihre Domain oder Sammlung und deren Index. Sie können Ihre Vektorindexfelder manuell konfigurieren oder die automatische Konfiguration OpenSearch zulassen.

Vector Ingestion verwendet OpenSearch Ingestion (OSI) als Datenpipeline zwischen Amazon S3 und. OpenSearch Der Dienst verarbeitet Vektoren parallel, um die Aufnahmegeschwindigkeit zu optimieren und gleichzeitig die Skalierungsgrenzen von OSI und zu respektieren. OpenSearch

OpenSearch Preisgestaltung bei der Aufnahme von Vektoren

Zu einem bestimmten Zeitpunkt zahlen Sie nur für die Anzahl der Vektoraufnahmen OCUs , die einer Pipeline zugewiesen sind, unabhängig davon, ob Daten durch die Pipeline fließen. OpenSearch Vector Ingestion passt sich sofort Ihren Workloads an, indem die Pipeline-Kapazität je nach Nutzung nach oben oder unten skaliert wird.

Vollständige Preisinformationen finden Sie unter Amazon OpenSearch Service Pricing.

Voraussetzungen

Bevor Sie Vector Ingestion verwenden, stellen Sie sicher, dass Sie über die folgenden Ressourcen verfügen:

  • Amazon S3 S3-Bucket mit Ihren OpenSearch JSON-Dokumenten im Parquet-Format

  • OpenSearch Ressource — entweder eine Domain oder eine Sammlung

  • OpenSearch Version 2.19 oder höher (erforderlich für die automatische Optimierung der Integration)

Vektordatenbank erstellen

Verwenden Sie den Workflow zur Erstellung von Vektor-Ingestion-Jobs, um die automatische Anpassung von Vektorindizes einzurichten und die Erstellung umfangreicher Indizes zu beschleunigen.

Anmerkung

Die verfahrenstechnischen Inhalte in diesem Abschnitt können sich ändern, sobald die Benutzeroberfläche fertiggestellt ist. Der Workflow kann in future Versionen aktualisiert werden, um die neueste Konsolenerfahrung widerzuspiegeln.

Um einen Vector-Injection-Job zu erstellen
  1. Geben Sie im Bereich Vector Ingestion-Auftragsdetails unter Name einen Namen für Ihren Ingestion-Job ein.

  2. Konfigurieren Sie im Abschnitt Datenquelle Folgendes:

    1. Geben Sie für Amazon S3 S3-URI den Amazon S3 S3-Bucket-Speicherort ein, der Ihre OpenSearch Service JSON-Dokumente enthält.

    2. Wählen Sie Amazon S3 durchsuchen, um aus verfügbaren Buckets auszuwählen, oder wählen Sie Ansicht, um eine Vorschau des Bucket-Inhalts anzuzeigen.

    3. Wählen Sie für Inhaltstyp eine der folgenden Optionen aus:

      • Vektoren — Dokumente enthalten bereits Vektoren und erfordern keine weitere Generierung von Vektoreinbettungen.

      • Text, Bild oder Audio — Dokumente enthalten Inhalte wie Text, Bilder oder Audiobytes, die in Vektoreinbettungen codiert werden müssen.

  3. Konfigurieren Sie im Abschnitt Datenquellenberechtigungen die Zugriffsberechtigungen:

    1. Wählen Sie für die IAM-Rolle eine der folgenden Optionen aus:

      • Create a new role (Neue Rolle erstellen)

      • Verwenden Sie eine vorhandene Rolle

    2. Geben Sie unter IAM-Rollenname einen Namen für die Rolle ein.

  4. Konfigurieren Sie im Abschnitt Ziel den OpenSearch Service-Endpunkt:

    1. Wählen Sie für Endpoint die Option Wählen Sie eine Option aus, um aus Ihren kompatiblen Domains oder Sammlungen in der aktuellen Region auszuwählen.

    2. Wählen Sie Weiter, um mit dem ausgewählten Endpunkt fortzufahren.

  5. Wählen Sie Weiter, um mit dem nächsten Schritt fortzufahren, oder wählen Sie Abbrechen, um den Vorgang ohne Speichern zu beenden.

Vector Ingestion funktioniert mit den folgenden Amazon OpenSearch Service-Funktionen, um die Leistung Ihrer Vektordatenbank zu optimieren:

GPU-Beschleunigung für die Vektorindizierung

Die GPU-Beschleunigung reduziert den Zeitaufwand für die Erstellung, Aktualisierung und Löschung von Vektorindizes. Bei Verwendung mit Vektoraufnahme können Sie den Aufnahme- und Indizierungsprozess für große Vektordatenbanken erheblich beschleunigen.

Automatisch optimieren

Mit der automatischen Optimierung werden automatisch optimale Kompromisse zwischen Suchlatenz, Qualität und Speicheranforderungen gefunden. Vector Ingestion kann während des Aufnahmeprozesses Empfehlungen zur automatischen Optimierung anwenden, um sicherzustellen, dass Ihre Vektorindizes optimal konfiguriert sind.

Um optimale Ergebnisse zu erzielen, sollten Sie erwägen, sowohl die GPU-Beschleunigung als auch die automatische Optimierung zu aktivieren, wenn Sie die Vektoraufnahme zur Erstellung umfangreicher Vektordatenbanken verwenden.