Utilizzo di S3 Vectors e bucket vettoriali - Amazon Simple Storage Service

Utilizzo di S3 Vectors e bucket vettoriali

Nota

Amazon S3 Vectors è disponibile in versione di anteprima per Amazon Simple Storage Service ed è soggetto a modifiche.

Che cos’è Amazon S3 Vectors?

Amazon S3 Vectors offre un’archiviazione vettoriale personalizzata e ottimizzata in termini di costi per le applicazioni di ricerca semantica e intelligenza artificiale. Grazie all’elasticità e alla durabilità di livello Amazon S3 per l’archiviazione di set di dati vettoriali con prestazioni di query inferiori al secondo, S3 Vectors è ideale per le applicazioni che necessitano di creare e ampliare indici vettoriali. Avrai a disposizione un set dedicato di operazioni API per archiviare, accedere ed eseguire query di somiglianza su dati vettoriali senza dover effettuare il provisioning di alcuna infrastruttura. S3 Vectors è composto da diversi componenti chiave che funzionano insieme:

  • Bucket di vettori: un nuovo tipo di bucket creato appositamente per archiviare e sottoporre a query i vettori.

  • Indici vettoriali: in un bucket vettoriale, puoi organizzare i dati vettoriali all’interno di indici vettoriali. Esegui query di somiglianza sui dati vettoriali all’interno di indici vettoriali.

  • Vettori: archivi i vettori nell’indice vettoriale. Per le applicazioni di ricerca per similarità e di intelligenza artificiale, i vettori vengono creati come embedding vettoriali, ossia rappresentazioni numeriche che preservano le relazioni semantiche tra i contenuti (come testo, immagini o audio) in modo che elementi simili siano posizionati vicini tra loro. S3 Vectors può eseguire ricerche per similarità basate sul significato semantico anziché sulla corrispondenza esatta confrontando matematicamente quanto i vettori sono vicini tra loro. Quando si aggiungono dati vettoriali a un indice vettoriale, è anche possibile collegare i metadati per future query di filtro basate su una serie di condizioni (ad esempio timestamp, categorie e preferenze dell’utente).

Le scritture su S3 Vectors sono fortemente coerenti, il che significa che è possibile immediatamente accedere ai dati aggiunti più di recente. Man mano che si scrivono, aggiornano ed eliminano i vettori nel tempo, S3 Vectors ottimizza automaticamente i dati vettoriali per ottenere il miglior rapporto prezzo/prestazioni possibile per l’archiviazione vettoriale, anche se i set di dati scalano e si evolvono. È possibile controllare l’accesso ai dati vettoriali con i meccanismi di controllo degli accessi esistenti di Amazon S3, incluse le policy di bucket e IAM. Per ulteriori informazioni sui limiti degli indici vettoriali per bucket e sui limiti degli indici vettoriali per indice, consulta Limitazioni e restrizioni.

Casi d’uso: ricerche per similarità su set di dati di grandi dimensioni

Le ricerche per similarità consentono di trovare elementi concettualmente correlati tra loro in base alle rispettive rappresentazioni vettoriali, anziché alla corrispondenza esatta delle parole chiave. Queste ricerche individuano contenuti con significati o caratteristiche simili, anche quando le parole o gli elementi visivi esatti sono diversi.

I casi d’uso più comuni della ricerca per similarità con S3 Vectors sono:

  • Diagnostica per immagini: individua similarità tra milioni di immagini mediche per facilitare la diagnosi e la scelta del trattamento

  • Violazione del copyright: individua contenuti potenzialmente derivati in grandi librerie multimediali

  • Deduplicazione delle immagini: rileva e rimuovi immagini duplicate o pressoché duplicate da raccolte di immagini di grandi dimensioni

  • Comprensione dei video: cerca scene o contenuti specifici all’interno delle risorse video

  • Ricerca di documenti aziendali: abilita la ricerca semantica dei documenti aziendali per trovare informazioni pertinenti in base al significato

  • Personalizzazione: fornisci consigli personalizzati individuando articoli simili

È consigliabile utilizzare S3 Vectors per creare applicazioni di ricerca vettoriale e di IA agentica convenienti con tempi di ricerca inferiori al secondo. Con i bucket vettoriali, paghi solo per ciò che usi e puoi risparmiare sui costi di caricamento, archiviazione e query degli embedding vettoriali. Per ulteriori informazioni sui prezzi, consulta Prezzi di Amazon S3.

Funzionalità di S3 Vectors

Archiviazione appositamente progettata per vettori

S3 Vectors è la prima archiviazione di oggetti creata appositamente nel cloud per archiviare e sottoporre a query i vettori. I bucket vettoriali sono progettati per fornire un’archiviazione conveniente, elastica e durevole per i dati vettoriali.

Gli embedding vettoriali trasformano il modo in cui i clienti utilizzano e recuperano i dati non strutturati, rilevando similarità tra immagini mediche, individuando anomalie in migliaia di ore di riprese video, navigando attraverso ampie codebase e identificando la giurisprudenza più rilevante per una determinata questione legale. Queste applicazioni emergenti si combinano con modelli di embedding per codificare il significato semantico dei dati (ad esempio testo, immagini, video, codice) come embedding vettoriali numerici.

In un bucket vettoriale, è possibile organizzare i dati vettoriali all’interno di indici vettoriali, senza dover predisporre l’infrastruttura. Man mano che si scrivono, aggiornano ed eliminano i vettori nel tempo, S3 Vectors ottimizza automaticamente i dati vettoriali per ottenere il miglior rapporto prezzo/prestazioni possibile per l’archiviazione vettoriale, anche se i set di dati scalano e si evolvono. Per ulteriori informazioni sui limiti degli indici vettoriali per bucket e sui limiti degli indici vettoriali per indice, consulta Limitazioni e restrizioni.

Esecuzione di query di somiglianza

Con S3 Vectors, è possibile eseguire in modo efficiente query di somiglianza per individuare i vettori più simili a un vettore di query, con tempi di risposta inferiori al secondo. S3 Vectors è ideale per carichi di lavoro in cui le query sono meno frequenti.

Filtro dei metadati

È possibile collegare i metadati (ad esempio anno, autore, genere e posizione) come coppie chiave-valore ai vettori. Per impostazione predefinita, tutti i metadati sono filtrabili a meno che non vengano esplicitamente specificati come non filtrabili. È possibile utilizzare metadati filtrabili per filtrare i risultati delle query in base a attributi specifici, migliorando la pertinenza delle query. Gli indici vettoriali supportano i metadati di tipo stringa, numerico, booleano ed elenco. Per ulteriori informazioni sui limiti di dimensione dei metadati per vettore e sui limiti di dimensione dei metadati filtrabili per vettore, consulta Limitazioni e restrizioni.

Gestione degli accessi e sicurezza

È possibile gestire l’accesso alle risorse in bucket vettoriali con IAM e policy di controllo dei servizi in AWS Organizations. S3 Vectors utilizza un namespace di servizio diverso dal namespace s3vectors di Amazon S3. Pertanto, è possibile progettare policy appositamente per il servizio S3 Vectors e le relative risorse. È possibile progettare policy per fornire l’accesso a singoli indici vettoriali, a tutti gli indici vettoriali all’interno di un bucket vettoriale o a tutti i bucket vettoriali in un account. Tutte le impostazioni di Blocco dell’accesso pubblico Amazon S3 sono sempre abilitate per i bucket vettoriali e non possono essere disabilitate.

Integrazione con i servizi AWS

S3 Vectors si integra con altri servizi AWS per migliorare le capacità di elaborazione vettoriale:

  • Servizio OpenSearch di Amazon: ottimizza i costi di archiviazione vettoriale con l’utilizzo delle operazioni API OpenSearch. È ideale per carichi di lavoro che richiedono funzionalità di ricerca avanzata come ricerca ibrida, aggregazioni, filtri avanzati e ricerca con facet. È anche possibile esportare uno snapshot di un indice vettoriale S3 in Amazon OpenSearch Serverless per una ricerca vettoriale con frequenza QPS elevata e bassa latenza.

  • Knowledge Base per Amazon Bedrock: seleziona un indice vettoriale in S3 Vectors come archivio vettoriale per risparmiare sui costi di archiviazione per le applicazioni di generazione potenziata da recupero dati (RAG).

  • Amazon Bedrock in SageMaker Unified Studio: sviluppa e testa knowledge base utilizzando S3 Vectors come archivio vettoriale.