Indici vettoriali - Amazon Simple Storage Service

Indici vettoriali

Nota

Amazon S3 Vectors è disponibile in versione di anteprima per Amazon Simple Storage Service ed è soggetto a modifiche.

Nota

Scegli con attenzione i parametri di configurazione dell’indice vettoriale. Dopo aver creato un indice vettoriale, non è possibile aggiornare il nome dell’indice vettoriale, la dimensione, la metrica della distanza o le chiavi di metadati non filtrabili. Per modificare uno di questi valori, occorre creare un nuovo indice vettoriale.

Gli indici vettoriali sono risorse all’interno di un bucket vettoriale che archiviano e organizzano i dati vettoriali per eseguire operazioni di ricerca per similarità in modo efficiente. Quando si crea un indice vettoriale, si specifica la metrica della distanza (Cosine o Euclidean), il numero di dimensioni che un vettore deve avere e, facoltativamente, un elenco di campi di metadati da escludere dal filtro durante le query di somiglianza.

Per ulteriori informazioni sui limiti di indici vettoriali per bucket, sui limiti di vettori per indice e sui limiti di dimensione per vettore, consulta Limitazioni e restrizioni.

Ogni indice vettoriale dispone di un nome della risorsa Amazon (ARN) univoco. Gli ARN degli indici vettoriali adottano il seguente formato:

arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name

Requisiti per la denominazione degli indici vettoriali

  • I nomi degli indici vettoriali devono essere univoci all’interno del bucket vettoriale.

  • I nomi degli indici vettoriali devono essere composti da un numero di caratteri compreso tra 3 e 63.

  • I caratteri validi sono lettere minuscole (a-z), numeri (0-9), trattini (-) e punti (.).

  • I nomi degli indici vettoriali devono iniziare e terminare con una lettera o un numero.

Requisiti per la dimensione

Una dimensione è il numero di valori presenti in un vettore. Tutti i vettori aggiunti all’indice devono avere esattamente questo numero di valori.

  • Una dimensione deve essere un numero intero compreso tra 1 e 4096.

  • Una dimensione più grande richiede più spazio di archiviazione.

Opzioni di metrica della distanza

La metrica della distanza specifica come viene calcolata la somiglianza tra i vettori. Quando si creano embedding vettoriali, si sceglie la metrica della distanza consigliata dal modello di embedding per ottenere risultati più accurati.

  • Coseno: misura il coseno dell’angolo tra i vettori. Ideale per vettori normalizzati e quando la direzione è più importante della grandezza.

  • Euclideo: misura la distanza in linea retta tra i vettori. Ideale quando sia la direzione sia la grandezza sono importanti.

Chiavi di metadati non filtrabili

Le chiavi di metadati consentono di collegare informazioni aggiuntive ai vettori come coppie chiave-valore durante l’archiviazione e il recupero. Per impostazione predefinita, tutti i metadati sono filtrabili, quindi possono essere utilizzati per filtrare i risultati delle query. Tuttavia, è possibile designare chiavi di metadati specifiche come non filtrabili per archiviare le informazioni con vettori senza utilizzarle per il filtro.

A differenza delle chiavi di metadati predefinite, queste chiavi non possono essere utilizzate come filtri di query. Le chiavi di metadati non filtrabili possono essere recuperate ma non possono essere ricercate, sottoposte a query o filtrate. È possibile accedervi solo dopo aver individuato l’indice.

Le chiavi di metadati non filtrabili consentono di arricchire i vettori con un contesto aggiuntivo che può essere recuperato con i risultati della ricerca senza essere sottoposto al filtro. Un esempio comune di chiave di metadati non filtrabili è quando si incorpora un testo nei vettori e si desidera includere il testo originale come metadati non filtrabili. Ciò consente di restituire il testo di origine insieme ai risultati della ricerca vettoriale senza aumentare i limiti di dimensione dei metadati filtrabili. Altri esempi includono l’archiviazione di timestamp di creazione, URL di origine o informazioni descrittive a fini puramente di riferimento. È possibile accedere alle chiavi di metadati non filtrabili durante il recupero dei vettori ma, a differenza delle chiavi di metadati predefinite, queste chiavi non possono essere utilizzate come filtri di query.

Di seguito sono riportati i requisiti per le chiavi di metadati non filtrabili.

  • Le chiavi di metadati non filtrabili devono essere univoche all’interno dell’indice vettoriale.

  • Le chiavi di metadati non filtrabili devono essere composte da un numero di caratteri compreso tra 1 e 63.

  • Le chiavi di metadati non filtrabili non possono essere modificate dopo la creazione dell’indice vettoriale.

  • S3 Vectors supporta fino a 10 chiavi di metadati non filtrabili per indice.

Per ulteriori informazioni sulle chiavi di metadati non filtrabili, consulta Metadati non filtrabili.