Interfaccia di input e output per l'algoritmo di classificazione del testo - TensorFlow - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Interfaccia di input e output per l'algoritmo di classificazione del testo - TensorFlow

Ciascuno dei modelli preaddestrati elencati nei modelli TensorFlow Hub può essere ottimizzato per qualsiasi set di dati costituito da frasi di testo con un numero qualsiasi di classi di immagini. Il modello preaddestrato collega un livello di classificazione al modello Incorporamento di testo e inizializza i parametri del livello su valori casuali. La dimensione di output del livello di classificazione viene determinata in base al numero di classi rilevate nei dati di input.

Fai attenzione a come formattare i dati di apprendimento per l'input nel modello di classificazione del testo - TensorFlow.

  • Formato di input dei dati di addestramento: una directory contenente un file data.csv. Ogni riga della prima colonna deve avere etichette di classe intere comprese tra 0 e il numero di classi. Ogni riga della seconda colonna deve contenere i dati di testo corrispondenti.

Di seguito è riportato un esempio di un file CSV di input. Tieni presente che il file non deve avere alcuna intestazione. Il file deve essere ospitato in un bucket Amazon S3 con un percorso simile al seguente: s3://bucket_name/input_directory/. Tieni presente che il simbolo / finale è obbligatorio.

| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|

Addestramento incrementale

Puoi avviare l’addestramento di un nuovo modello con gli artefatti di un modello che hai sottoposto ad addestramento in precedenza con SageMaker AI. L'addestramento incrementale consente di risparmiare tempo quando vuoi sottoporre ad addestramento un nuovo modello con dati uguali o simili.

Nota

Puoi avviare l’addestramento di un modello Classificazione del testo - TensorFlow di SageMaker AI solo con un altro modello Classificazione del testo - TensorFlow addestrato in SageMaker AI.

Puoi utilizzare qualsiasi set di dati per l'addestramento incrementale, purché il set di classi rimanga lo stesso. La fase di addestramento incrementale è simile alla fase di ottimizzazione, ma invece di iniziare con un modello preaddestrato, si inizia con un modello ottimizzato esistente.

Per ulteriori informazioni sull’utilizzo dell’addestramento incrementale con l’algoritmo Classificazione del testo - TensorFlow di SageMaker AI, consulta il notebook di esempio Introduzione a JumpStart - Classificazione del testo.

Inferenza con l'algoritmo di classificazione del testo - TensorFlow

Puoi ospitare il modello ottimizzato che risulta dall’addestramento della classificazione del testo TensorFlow per l'inferenza. Qualsiasi formato di testo non elaborato per l'inferenza deve essere di tipo di contenuto application/x-text.

L'esecuzione dell'inferenza produce valori di probabilità, etichette di classe per tutte le classi e l'etichetta prevista corrispondente all'indice di classe con la probabilità più alta codificato in formato JSON. Il modello di classificazione del testo - TensorFlow elabora una singola stringa per richiesta e quindi emette solo una riga. Di seguito è riportato un esempio di risposta in formato JSON:

accept: application/json;verbose {"probabilities": [prob_0, prob_1, prob_2, ...], "labels": [label_0, label_1, label_2, ...], "predicted_label": predicted_label}

Se accept è impostato su application/json, il modello emette solo le probabilità.