Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Interfaz de entrada/salida para el algoritmo Text Classification - TensorFlow
Todos los modelos prentrenados que se enumeran en los modelos de TensorFlow Hub se pueden refinarse en cualquier conjunto de datos compuesto por frases de texto con cualquier número de clases. El modelo prentrenado asocia una capa de clasificación al modelo de incrustación de texto e inicia los parámetros de la capa en valores aleatorios. La dimensión de salida de la capa de clasificación se determina en función del número de clases detectadas en los datos de entrada.
Es importante que piense en cómo va a dar formato a los datos de entrenamiento para la entrada del modelo Text Classification - TensorFlow.
-
Formato de entrada de los datos de entrenamiento: un directorio con un archivo
data.csv. Cada fila de la primera columna debe tener etiquetas de clase entera entre 0 y el número de clases. Cada fila de la segunda columna debe tener los datos de texto correspondientes.
Lo que sigue es un ejemplo de una entrada de archivo CSV: Tenga en cuenta que el archivo no debería tener ningún encabezado. El archivo debe alojarse en un bucket de Amazon S3 con una ruta similar a s3://. Tenga en cuenta que es obligatorio incluir bucket_name/input_directory// al final.
| | | |---|---| |0 |hide new secretions from the parental units| |0 |contains no wit , only labored gags| |1 |that loves its characters and communicates something rather beautiful about human nature| |...|...|
Entrenamiento incremental
También puede aplicar valores de inicialización en el entrenamiento de un nuevo modelo con los artefactos de un modelo que ya ha entrenado previamente con SageMaker AI. El entrenamiento incremental supone un ahorro de tiempo cuando queremos entrenar un nuevo modelo con datos idénticos o similares.
nota
En un modelo Text Classification - TensorFlow, solo puede aplicar valores de inicialización a partir de modelos Text Classification - TensorFlow entrenados en SageMaker AI.
Para el entrenamiento incremental, puede utilizar cualquier conjunto de datos, siempre y cuando el conjunto de clases siga siendo el mismo. El paso de entrenamiento incremental es similar al paso de ajuste; la diferencia es que, en lugar de comenzar con un modelo previamente entrenado, se comienza con un modelo de ajuste fino existente.
Para obtener más información sobre cómo utilizar el entrenamiento incremental con el algoritmo Text Classification - TensorFlow en SageMaker AI, consulte el cuaderno de ejemplo Introduction to JumpStart - Text Classification
La inferencia con el algoritmo Text Classification - TensorFlow
Puede alojar el modelo de ajuste fino generado por el entrenamiento de TensorFlow - Text Classification para llevar a cabo inferencias. Para la inferencia, todos los formatos de texto sin procesar deben ser del tipo de contenido application/x-text.
Al ejecutar la inferencia, se obtienen valores de probabilidad, etiquetas de clase para todas las clases y la etiqueta pronosticada correspondiente al índice de clase con la probabilidad más alta, codificada en formato JSON. El modelo Text Classification - TensorFlow procesa una sola cadena por solicitud y genera solo una línea. Lo siguiente es un ejemplo de una respuesta en formato JSON:
accept: application/json;verbose {"probabilities": [prob_0,prob_1,prob_2, ...], "labels": [label_0,label_1,label_2, ...], "predicted_label":predicted_label}
Si accept se establece en application/json, el modelo solo genera probabilidades.