Creazione di un processo di valutazione automatica del modello in Studio - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un processo di valutazione automatica del modello in Studio

La procedura guidata disponibile in Studio ti guida nella selezione di un modello da valutare, nella selezione di un tipo di attività, nella scelta di metriche e set di dati e nella configurazione delle risorse necessarie. Gli argomenti seguenti mostrano come formattare un set di dati di input personalizzato facoltativo, configurare l’ambiente e creare il processo di valutazione del modello in Studio.

Per utilizzare il tuo set di dati dei prompt personalizzato, è necessario che sia file jsonlines, in cui ogni riga è un oggetto JSON valido. Ogni oggetto JSON deve contenere un solo prompt.

Per garantire il corretto funzionamento del JumpStart modello selezionato, SageMaker Clarify formatta automaticamente tutti i set di dati richiesti nel formato più adatto alle dimensioni di valutazione del modello selezionate. Per i set di dati di prompt incorporati, SageMaker Clarify aggiungerà anche del testo didattico aggiuntivo. Per vedere come SageMaker Clarify modificherà i prompt, scegliete il modello di prompt in una delle dimensioni di valutazione che avete aggiunto al processo di valutazione del modello. Per un esempio di come modificare un modello di prompt, consulta Esempio di modello di prompt.

L'interruttore consente di disattivare o attivare il supporto automatico per la creazione di modelli di prompt fornito da Clarify per i set di dati integrati. SageMaker La disattivazione della creazione di modelli di prompt automatici consente di specificare modelli di prompt personalizzati che verranno applicati a tutti i prompt del set di dati.

Per sapere quali chiavi sono disponibili per un set di dati personalizzato nell’interfaccia utente, consulta i seguenti elenchi di attività.

  • model_input: necessario per indicare l’input per le seguenti attività.

    • Il prompt a cui il modello deve rispondere nelle attività Generazione aperta, Tossicità e Accuratezza.

    • La domanda a cui il modello deve rispondere nelle attività di risposta alle domande e conoscenze fattuali.

    • Il testo che il modello deve riassumere nell’attività di sintesi testuale.

    • Il testo che il modello deve classificare nelle attività di classificazione.

    • Il testo che il modello deve modificare nelle attività di robustezza semantica.

  • target_output: necessario per indicare la risposta rispetto alla quale il modello viene valutato per le attività seguenti.

    • La risposta per le attività di risposta alle domande, accuratezza, robustezza semantica e valutazione fattuale.

    • Per le attività di accuratezza e robustezza semantica, separa le risposte accettabili con <OR>. La valutazione accetta come corrette tutte le risposte separate da virgola. Ad esempio, utilizza target_output="UK<OR>England<OR>United Kingdom" se vuoi accettare come corrette le risposte UK, England o United Kingdom.

  • (Facoltativo) category: genera punteggi di valutazione riportati per ogni categoria.

  • sent_less_input: obbligatorio per indicare il prompt che contiene meno bias per le attività di stereotipizzazione dei prompt.

  • sent_more_input: obbligatorio per indicare il prompt che contiene più bias per le attività di stereotipizzazione dei prompt.

Una valutazione delle conoscenze fattuali richiede sia la domanda da porre sia la risposta da confrontare con la risposta del modello. Utilizza la chiave model_input con il valore contenuto nella domanda e la chiave target_output con il valore contenuto nella risposta come descritto di seguito:

{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

L’esempio precedente è un singolo oggetto JSON valido che costituisce un record in un file di input jsonlines. Ogni oggetto JSON viene inviato al modello come richiesta. Per effettuare più richieste, includi più righe. Il seguente esempio di input di dati riguarda un'attività di risposta a domande che utilizza una chiave category opzionale per la valutazione.

{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

Se valuti l’algoritmo nell’interfaccia utente, vengono impostati i seguenti valori predefiniti per il set di dati di input:

  • Il numero di record utilizzati nella valutazione è fisso. L’algoritmo campiona questo numero di richieste in modo casuale dal set di dati di input.

    • Per modificare questo numero: utilizza la libreria fmeval come descritto in Personalizzazione del flusso di lavoro con la libreria fmeval e imposta il parametro num_records sul numero di campioni desiderato o su -1 per specificare l’intero set di dati. Il numero predefinito di record che viene valutati è 100 per le attività di accuratezza, stereotipizzazione dei prompt, tossicità, classificazione e robustezza semantica. Il numero predefinito di record per un’attività di conoscenze fattuali è 300.

  • Il delimitatore di output di destinazione, come descritto in precedenza nel parametro target_output, è impostato su <OR> nell’interfaccia utente.

    • Per separare le risposte accettabili utilizzando un altro delimitatore: utilizza la libreria fmeval come descritto in Personalizzazione del flusso di lavoro con la libreria fmeval e imposta il parametro target_output_delimiter sul delimitatore desiderato.

  • È necessario utilizzare un modello di linguaggio basato su testo disponibile JumpStart per la valutazione del modello. Questi modelli hanno diversi parametri di configurazione per l'immissione dei dati che vengono passati automaticamente al FMeval processo.

    • Per utilizzare un altro tipo di modello: utilizza la libreria fmeval per definire la configurazione dei dati per il set di dati di input.

Per eseguire una valutazione automatica per il modello linguistico di grandi dimensioni (LLM), è necessario configurare l’ambiente affinché abbia le autorizzazioni corrette per eseguire una valutazione. Quindi, puoi utilizzare l’interfaccia utente per ottenere aiuto nelle varie fasi del flusso di lavoro ed eseguire una valutazione. Le sezioni seguenti spiegano come utilizzare l’interfaccia utente per eseguire una valutazione automatica.

Prerequisiti
  • Per eseguire una valutazione del modello in un’interfaccia utente di Studio, il ruolo AWS Identity and Access Management (IAM) e tutti i set di dati di input devono disporre delle autorizzazioni corrette. Se non disponi di un dominio SageMaker AI o di un ruolo IAM, segui i passaggi indicatiGuida alla configurazione con Amazon SageMaker AI.

Per impostare le autorizzazioni per il bucket S3

Dopo aver creato il dominio e il ruolo, utilizza la procedura seguente per aggiungere le autorizzazioni necessarie per valutare il modello.

  1. Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nel riquadro di navigazione, immetti S3 nella barra di ricerca nella parte superiore della pagina.

  3. In Servizi, scegli S3.

  4. Nel riquadro di navigazione, scegli Bucket.

  5. Nella sezione Bucket per uso generico, in Nome, scegli il nome del bucket Amazon S3 da utilizzare per archiviare il tuo set di dati dei prompt personalizzato e la posizione in cui salvare i risultati del processo di valutazione del modello. Il bucket Amazon S3 deve trovarsi nella stessa istanza di Regione AWS Studio. Se non hai un bucket Amazon S3, procedi come segue.

    1. Seleziona Crea bucket per aprire una nuova pagina Crea bucket.

    2. Nella sezione Configurazione generale, in Regione AWS, seleziona la Regione AWS in cui si trova il modello di fondazione.

    3. Assegna un nome al bucket S3 nella casella di input in Nome bucket.

    4. Accetta tutte le scelte predefinite.

    5. Seleziona Crea bucket.

    6. Nella sezione Bucket per uso generico, in Nome, seleziona il nome del bucket S3 che hai creato.

  6. Scegli la scheda Autorizzazioni.

  7. Scorri fino alla sezione Condivisione delle risorse multiorigine (CORS) nella parte inferiore della finestra. Scegli Modifica.

  8. Per aggiungere le autorizzazioni CORS al tuo bucket, copia il seguente codice nella casella di input.

    [ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
  9. Scegli Save changes (Salva modifiche).

Per aggiungere le autorizzazioni alla policy IAM
  1. Immetti IAM nella barra di ricerca nella parte superiore della pagina.

  2. In Servizi, seleziona Identity and Access Management (IAM).

  3. Nel riquadro di navigazione, scegli Policy.

  4. Scegli Crea policy. Nella sezione Editor di policy, scegli JSON.

  5. Scegli Next (Successivo).

  6. Verifica che le autorizzazioni seguenti siano presenti in Editor di policy. Puoi anche copiare e incollare quanto segue in Editor di policy.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
  7. Scegli Next (Successivo).

  8. Inserisci il nome della policy nella sezione Dettagli della policy, in Nome della policy. Facoltativamente, è possibile inserire una descrizione. Quando assegni la policy a un ruolo, dovrai cercare questo nome.

  9. Scegli Crea policy.

Per aggiungere le autorizzazioni al ruolo IAM
  1. Nel riquadro di navigazione scegliere Roles (Ruoli). Inserisci il nome del ruolo da utilizzare.

  2. Seleziona il nome del ruolo in Nome ruolo. La finestra principale cambia per mostrare le informazioni sul tuo ruolo.

  3. Nella sezione Policy di autorizzazione, seleziona la freccia giù accanto ad Aggiungi autorizzazioni.

  4. Tra le opzioni visualizzate, scegli Collega policy.

  5. Nell’elenco delle policy visualizzato, cerca la policy creata nella Fase 5. Seleziona la casella di controllo accanto al nome della policy.

  6. Scegli la freccia giù accanto ad Azioni.

  7. Tra le opzioni visualizzate, seleziona Collega.

  8. Cerca il nome per il ruolo che hai creato. Seleziona la casella di controllo accanto a tale nome.

  9. Scegli Add Permissions (Aggiungi autorizzazioni). Un banner nella parte superiore della pagina dovrebbe indicare che la policy è stata collegata correttamente al ruolo.

  • .

Quando crei un processo automatico di valutazione del modello, puoi scegliere tra i JumpStart modelli basati su testo disponibili oppure puoi utilizzare un JumpStart modello basato su testo che hai precedentemente distribuito su un endpoint.

Per creare un processo di valutazione automatica del modello, procedi come segue.

Per avviare un processo di valutazione automatica del modello in Studio.
  1. Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Immetti SageMaker AI nella barra di ricerca nella parte superiore della pagina.

  3. In Servizi, seleziona Amazon SageMaker AI.

  4. Scegli Studio nel riquadro di navigazione.

  5. Scegli il tuo dominio dalla sezione Nozioni di base dopo aver selezionato la freccia giù in Seleziona dominio.

  6. Scegli il tuo profilo utente dalla sezione Nozioni di base dopo aver selezionato la freccia giù in Seleziona profilo utente.

  7. Scegli Apri Studio per aprire la pagina di destinazione di Studio.

  8. Nel riquadro di navigazione primario, scegli Processi.

  9. Quindi, scegli Valutazione del modello.

Per impostare un processo di valutazione
  1. Scegli Valuta un modello.

  2. Nella Fase 1. Specifica i dettagli del processo, procedi come descritto di seguito:

    1. Immetti il nome della valutazione del modello. Questo nome consente di identificare il processo di valutazione del modello dopo l’invio.

    2. Immetti una Descrizione per aggiungere altro contesto al nome.

    3. Scegli Next (Successivo).

  3. Nella Fase 2. Configura la valutazione, procedi come descritto di seguito:

    1. In Tipo di valutazione scegli Automatico.

    2. Quindi, scegli Aggiungi modello alla valutazione.

    3. Nella modalità Aggiungi modello puoi scegliere di utilizzare un modello base Jumpstart pre-addestrato o un endpoint AI. SageMaker Se hai già distribuito un modello, scegli un endpoint SageMaker AI, altrimenti scegli il JumpStart modello base Jumpstart pre-addestrato.

    4. Poi, scegli Salva.

    5. (Facoltativo) Dopo aver aggiunto il modello, scegli Modello di prompt per visualizzare il formato di input previsto per i prompt in base al modello selezionato. Per informazioni su come configurare un modello di prompt per un set di dati, consulta Modelli di prompt.

      • Per utilizzare il modello di prompt predefinito, procedi come descritto di seguito:

        1. Attiva Utilizza i modelli di prompt predefiniti forniti dai set di dati.

        2. (Facoltativo) Per ogni set di dati, rivedi il prompt fornito da Clarify.

        3. Scegli Save (Salva).

      • Per utilizzare un modello di progetto personalizzato, procedi come descritto di seguito:

        1. Disattiva Utilizza i modelli di prompt predefiniti forniti dai set di dati.

        2. Se Clarify visualizza un prompt predefinito, puoi personalizzarlo oppure rimuoverlo e fornire un prompt personalizzato. Devi includere la variabile $model_input nel modello di prompt.

        3. Scegli Save (Salva).

    6. Quindi, in Tipo di attività, scegli un tipo di attività.

      Per ulteriori informazioni sui tipi di attività e sulle dimensioni di valutazione associate, consulta la sezione Valutazione automatica in Utilizzo dei set di dati dei prompt e delle dimensioni di valutazione disponibili nei processi di valutazione del modello .

    7. Nella sezione Metriche di valutazione, scegli una dimensione di valutazione. La casella di testo sotto Descrizione contiene un contesto aggiuntivo sulla dimensione.

      Dopo aver selezionato un’attività, le metriche associate all’attività vengono visualizzate in Metriche. Procedi come segue in questa sezione.

    8. Seleziona una dimensione di valutazione dalla freccia giù in Dimensione di valutazione.

    9. Scegli un set di dati di valutazione. Puoi scegliere di utilizzare il tuo set di dati o un set di dati integrato. Se desideri utilizzare il tuo set di dati per valutare il modello, devi formattarlo in un modo utilizzabile. FMEval Deve inoltre trovarsi in un bucket S3 con le autorizzazioni CORS descritte nella sezione Configurare l'ambiente precedente. Per ulteriori informazioni su come formattare un set di dati personalizzato, consulta Utilizzo di un set di dati di input personalizzato.

    10. Inserisci una posizione del bucket S3 in cui desideri salvare i risultati della valutazione dell’output. Questo file è in formato jsonlines (.jsonl).

    11. Configura il processore nella sezione Configurazione del processore con i seguenti parametri:

      • Utilizza Numero di istanze per specificare il numero di istanze di calcolo da utilizzare per eseguire il modello. Se utilizzi più di un’istanza 1, il tuo modello verrà eseguito in istanze parallele.

      • Utilizza Tipo di istanza per scegliere il tipo di istanza di calcolo da utilizzare per eseguire il tuo modello. Per ulteriori informazioni sui tipi di istanze, consulta Tipi di istanze disponibili per l'uso con i notebook Amazon SageMaker Studio Classic.

      • Usa la chiave Volume KMS per specificare la tua chiave di crittografia AWS Key Management Service (AWS KMS). SageMaker L'intelligenza artificiale utilizza la tua AWS KMS chiave per crittografare il traffico in entrata dal modello e dal tuo bucket Amazon S3. Per ulteriori informazioni sulle chiavi, consulta AWS Key Management Service.

      • Usa la chiave Output KMS per specificare la chiave di AWS KMS crittografia per il traffico in uscita.

      • Utilizza Ruolo IAM per specificare l’accesso e le autorizzazioni per il processore predefinito. Inserisci il ruolo IAM che hai configurato in Configurare l'ambiente.

    12. Dopo aver specificato il modello e i criteri, scegli Avanti. La finestra principale passa alla Fase 5 Rivedi e salva.

Revisione ed esecuzione del processo di valutazione
  1. Rivedi tutti i parametri, il modello e i dati che hai selezionato per la valutazione.

  2. Scegli Crea risorsa per eseguire la valutazione.

  3. Per verificare lo stato del processo, vai all’inizio della sezione Valutazioni dei modelli della pagina.