Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione
Utilizzando l’API Autopilot, gli utenti possono eseguire il fine-tuning di modelli linguistici di grandi dimensioni (LLM) basati su Amazon SageMaker JumpStart.
Nota
Per i modelli ottimizzati con fine-tuning che richiedono l’accettazione di un contratto di licenza con l’utente finale, è necessario dichiarare esplicitamente l’accettazione dell’EULA durante la creazione del processo AutoML. Dopo il fine-tuning di un modello preaddestrato, i pesi del modello originale cambiano, quindi non è necessario accettare successivamente un EULA quando si implementa il modello ottimizzato con fine-tuning.
Per informazioni su come accettare l’EULA durante la creazione di un processo di fine-tuning utilizzando l’API AutoML, consulta Come impostare l’accettazione dell’EULA durante il fine-tuning di un modello utilizzando l’API AutoML.
È possibile trovare i dettagli completi di ciascun modello cercando l’ID di modello JumpStart nella seguente tabella dei modelli
La tabella seguente elenca i modelli JumpStart supportati di cui è possibile eseguire il fine-tuning con un processo AutoML.
| ID di modello JumpStart | BaseModelName in richiesta API |
Descrizione |
|---|---|---|
| huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
Dolly 3B è un modello linguistico di grandi dimensioni che segue istruzioni da 2,8 miliardi di parametri ed è basato su pythia-2.8b |
| huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
Dolly 7B è un modello linguistico di grandi dimensioni che segue istruzioni da 6,9 miliardi di parametri ed è basato su pythia-6.9b |
| huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
Dolly 12B è un modello linguistico di grandi dimensioni che segue istruzioni da 12 miliardi di parametri ed è basato su pythia-12b |
| huggingface-llm-falcon-7b-bf16 | Falcon7B |
Falcon 7B è un modello linguistico di grandi dimensioni causale da 7 miliardi di parametri ed è addestrato su 1.500 miliardi di token migliorati con corpora curati. Falcon-7B è addestrato solo su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Poiché il modello è stato addestrato su grandi quantità di dati web, include gli stereotipi e i bias comunemente presenti online. |
| huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
Falcon 7B Instruct è un modello linguistico di grandi dimensioni causale da 7 miliardi di parametri basato su Falcon 7B e ottimizzato con fine-tuning su una combinazione di set di dati di chat/istruzioni da 250 milioni di token. Falcon 7B Instruct è addestrato principalmente su dati in inglese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online. |
| huggingface-llm-falcon-40b-bf16 | Falcon40B |
Falcon 40B è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri ed è addestrato su 1.000 miliardi di token migliorati con corpora curati. È addestrato principalmente in inglese, tedesco, spagnolo e francese, con capacità limitate in italiano, portoghese, polacco, olandese, rumeno, ceco e svedese. Non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online. |
| huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
Falcon 40B Instruct è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri basato su Falcon40B e ottimizzato con fine-tuning su una combinazione di Baize. È addestrato principalmente su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online. |
| huggingface-text2text-flan-t5-large | FlanT5L |
La famiglia di modelli Flan-T5 |
| huggingface-text2text-flan-t5-xl | FlanT5XL |
La famiglia di modelli Flan-T5 |
| huggingface-text2text-flan-t5-xxll | FlanT5XXL |
La famiglia di modelli Flan-T5 |
| meta-textgeneration-llama-2-7b | Llama2-7B |
Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello da 7 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale. |
| meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello di chat da 7 miliardi di parametri ottimizzato per i casi d’uso di dialogo. |
| meta-textgeneration-llama-2-13b | Llama2-13B |
Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello da 13 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale. |
| meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello di chat da 13 miliardi di parametri ottimizzato per i casi d’uso di dialogo. |
| huggingface-llm-mistral-7b | Mistral7B |
Mistral 7B è un codice da sette miliardi di parametri e un modello generico di generazione di testi in inglese. Può essere utilizzato in numerosi casi d’uso, tra cui sintesi testuale, classificazione, completamento del testo o completamento del codice. |
| huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
Mistral 7B Instruct è la versione ottimizzata con fine-tuning di Mistral 7B per casi d’uso conversazionali. È stato specializzato utilizzando una serie di set di dati conversazionali pubblicamente disponibili in inglese. |
| huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
MPT 7B è un modello linguistico di grandi dimensioni con trasformatore in stile decoder da 6,7 miliardi di parametri, preaddestrato da zero su 1 trilione di token di testo e codice in inglese. È predisposto per gestire lunghe sequenze di contesto. |
| huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
MPT 7B Instruct è un modello per attività di esecuzione di istruzioni brevi. È stato realizzato eseguendo il fine-tuning di MPT 7B su un set di dati derivato da databricks-dolly-15k |