Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione - Amazon SageMaker AI

Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione

Utilizzando l’API Autopilot, gli utenti possono eseguire il fine-tuning di modelli linguistici di grandi dimensioni (LLM) basati su Amazon SageMaker JumpStart.

Nota

Per i modelli ottimizzati con fine-tuning che richiedono l’accettazione di un contratto di licenza con l’utente finale, è necessario dichiarare esplicitamente l’accettazione dell’EULA durante la creazione del processo AutoML. Dopo il fine-tuning di un modello preaddestrato, i pesi del modello originale cambiano, quindi non è necessario accettare successivamente un EULA quando si implementa il modello ottimizzato con fine-tuning.

Per informazioni su come accettare l’EULA durante la creazione di un processo di fine-tuning utilizzando l’API AutoML, consulta Come impostare l’accettazione dell’EULA durante il fine-tuning di un modello utilizzando l’API AutoML.

È possibile trovare i dettagli completi di ciascun modello cercando l’ID di modello JumpStart nella seguente tabella dei modelli e quindi seguendo il link nella colonna Source. Questi dettagli possono includere i linguaggi supportati dal modello, i bias che può presentare, i set di dati utilizzati per il fine-tuning e altro ancora.

La tabella seguente elenca i modelli JumpStart supportati di cui è possibile eseguire il fine-tuning con un processo AutoML.

ID di modello JumpStart BaseModelName in richiesta API Descrizione
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B è un modello linguistico di grandi dimensioni che segue istruzioni da 2,8 miliardi di parametri ed è basato su pythia-2.8b. È addestrato sul set di dati di fine-tuning di istruzioni/risposte databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B è un modello linguistico di grandi dimensioni che segue istruzioni da 6,9 miliardi di parametri ed è basato su pythia-6.9b. È addestrato sul set di dati di fine-tuning di istruzioni/risposte databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B è un modello linguistico di grandi dimensioni che segue istruzioni da 12 miliardi di parametri ed è basato su pythia-12b. È addestrato sul set di dati di fine-tuning di istruzioni/risposte databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B è un modello linguistico di grandi dimensioni causale da 7 miliardi di parametri ed è addestrato su 1.500 miliardi di token migliorati con corpora curati. Falcon-7B è addestrato solo su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Poiché il modello è stato addestrato su grandi quantità di dati web, include gli stereotipi e i bias comunemente presenti online.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct è un modello linguistico di grandi dimensioni causale da 7 miliardi di parametri basato su Falcon 7B e ottimizzato con fine-tuning su una combinazione di set di dati di chat/istruzioni da 250 milioni di token. Falcon 7B Instruct è addestrato principalmente su dati in inglese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri ed è addestrato su 1.000 miliardi di token migliorati con corpora curati. È addestrato principalmente in inglese, tedesco, spagnolo e francese, con capacità limitate in italiano, portoghese, polacco, olandese, rumeno, ceco e svedese. Non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri basato su Falcon40B e ottimizzato con fine-tuning su una combinazione di Baize. È addestrato principalmente su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.

huggingface-text2text-flan-t5-large FlanT5L

La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 L è un modello linguistico di grandi dimensioni da 780 milioni di parametri addestrato su varie lingue. L’elenco delle lingue supportate da Flan T5 L è disponibile nei dettagli del modello, che è possibile recuperare eseguendo la ricerca per ID di modello nella tabella dei modelli di JumpStart.

huggingface-text2text-flan-t5-xl FlanT5XL

La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 XL è un modello linguistico di grandi dimensioni da 3 miliardi di parametri addestrato su varie lingue. L’elenco delle lingue supportate da Flan T5 XL è disponibile nei dettagli del modello, che è possibile recuperare eseguendo la ricerca per ID di modello nella tabella dei modelli di JumpStart.

huggingface-text2text-flan-t5-xxll FlanT5XXL

La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 XXL è un modello da 11 miliardi di parametri. L’elenco delle lingue supportate da Flan T5 XXL è disponibile nei dettagli del modello, che è possibile recuperare eseguendo la ricerca per ID di modello nella tabella dei modelli di JumpStart.

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello da 7 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello di chat da 7 miliardi di parametri ottimizzato per i casi d’uso di dialogo.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello da 13 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello di chat da 13 miliardi di parametri ottimizzato per i casi d’uso di dialogo.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B è un codice da sette miliardi di parametri e un modello generico di generazione di testi in inglese. Può essere utilizzato in numerosi casi d’uso, tra cui sintesi testuale, classificazione, completamento del testo o completamento del codice.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct è la versione ottimizzata con fine-tuning di Mistral 7B per casi d’uso conversazionali. È stato specializzato utilizzando una serie di set di dati conversazionali pubblicamente disponibili in inglese.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B è un modello linguistico di grandi dimensioni con trasformatore in stile decoder da 6,7 miliardi di parametri, preaddestrato da zero su 1 trilione di token di testo e codice in inglese. È predisposto per gestire lunghe sequenze di contesto.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct è un modello per attività di esecuzione di istruzioni brevi. È stato realizzato eseguendo il fine-tuning di MPT 7B su un set di dati derivato da databricks-dolly-15k e dai set di dati di Anthropic Helpful and Harmless (HH-RLHF).