View a markdown version of this page

Beschleunigen Sie die generative KI-Entwicklung mit verwaltetem MLflow auf Amazon SageMaker AI - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Beschleunigen Sie die generative KI-Entwicklung mit verwaltetem MLflow auf Amazon SageMaker AI

Vollständig verwaltetes MLflow auf Amazon SageMaker AI ermöglicht es Ihnen, generative KI zu beschleunigen, indem es einfacher wird, Experimente zu verfolgen und die Leistung von Modellen und KI-Anwendungen mit einem einzigen Tool zu überwachen.

Generative KI-Entwicklung mit MLflow

Da Kunden aus allen Branchen ihre Entwicklung generativer KI beschleunigen, benötigen sie Funktionen zur Nachverfolgung von Experimenten, zur Verhaltensbeobachtung und zur Bewertung der Leistung von Modellen und KI-Anwendungen. Datenwissenschaftlern und Entwicklern fehlen Tools zur Analyse der Leistung von Modellen und KI-Anwendungen vom Experiment bis zur Produktion, was es schwierig macht, Ursachen zu finden und Probleme zu lösen. Teams verbringen mehr Zeit mit der Integration von Tools als mit der Verbesserung ihrer Modelle oder Anwendungen mit generativer KI.

Das Training oder die Optimierung von generativer KI und Machine Learning ist ein iterativer Prozess, bei dem Sie mit verschiedenen Kombinationen von Daten, Algorithmen und Parametern experimentieren und dabei deren Auswirkungen auf die Modellgenauigkeit beobachten müssen. Der iterative Charakter von Experimenten führt zu zahlreichen Modelltrainingsläufen und -versionen, was es schwierig macht, die leistungsstärksten Modelle und ihre Konfigurationen nachzuverfolgen. Die Komplexität der Verwaltung und des Vergleichs iterativer Trainingsläufe nimmt mit GenAI zu, wo Experimente nicht nur die Optimierung von Modellen, sondern auch die Untersuchung kreativer und vielfältiger Ergebnisse beinhalten. Forscher müssen Hyperparameter anpassen, geeignete Modellarchitekturen auswählen und verschiedene Datensätze kuratieren, um sowohl die Qualität als auch die Kreativität der generierten Inhalte zu optimieren. Die Bewertung von Modellen mit generativer KI erfordert sowohl quantitative als auch qualitative Metriken, was den Experimentierprozess um eine weitere Ebene der Komplexität erhöht. Mit den Funktionen zur Nachverfolgung von Experimenten in MLflow on Amazon SageMaker AI können Sie iterative ML-Experimente verfolgen, organisieren, anzeigen, analysieren und vergleichen, um vergleichende Erkenntnisse zu gewinnen und Ihre leistungsstärksten Modelle zu registrieren und einzusetzen.

Die Tracing-Funktionen in vollständig verwaltetem MLflow ermöglichen es Ihnen, die Eingaben, Ausgaben und Metadaten bei jedem Schritt einer generativen KI-Anwendung aufzuzeichnen, sodass Sie die Ursache von Fehlern oder unerwartetem Verhalten schnell identifizieren können. Durch die Aufbewahrung von Aufzeichnungen über jedes Modell und jede Anwendungsversion bietet das vollständig verwaltete MLflow Rückverfolgbarkeit, um KI-Antworten mit ihren Quellkomponenten zu verknüpfen, sodass Sie ein Problem schnell direkt dem spezifischen Code, den Daten oder den Parametern zuordnen können, die es generiert haben. Dies reduziert die Zeit für die Fehlerbehebung drastisch und ermöglicht es den Teams, sich stärker auf Innovationen zu konzentrieren.

MLflow-Integrationen

Verwenden Sie MLflow beim Training und der Bewertung von Modellen, um die besten Kandidaten für Ihren Anwendungsfall zu finden. Sie können die Modellleistung, Parameter und Metriken zwischen Experimenten in der MLflow-Benutzeroberfläche vergleichen, Ihre besten Modelle in der MLflow-Modellregistrierung verfolgen, sie automatisch als SageMaker KI-Modell registrieren und registrierte Modelle auf SageMaker KI-Endpunkten bereitstellen.

Amazon SageMaker AI mit MLflow

Verwenden Sie MLflow, um die Experimentierphase des maschinellen Lernens (ML) mit AWS Integrationen für Modellentwicklung, Verwaltung, Bereitstellung und Nachverfolgung zu verfolgen und zu verwalten.

Amazon SageMaker Studio

Erstellen und verwalten Sie Tracking-Server, führen Sie Notebooks aus, um Experimente zu erstellen, und greifen Sie auf die MLflow-Benutzeroberfläche zu, um Experimentläufe in Studio anzuzeigen und zu vergleichen.

SageMaker Modellregistrierung

Verwalten Sie Modellversionen und Katalogmodelle für die Produktion, indem Sie Modelle automatisch aus MLflow Model Registry in Model Registry registrieren. SageMaker Weitere Informationen finden Sie unter Registrieren Sie SageMaker KI-Modelle automatisch bei Model Registry SageMaker.

SageMaker KI-Inferenz

Bereiten Sie Ihre besten Modelle für den Einsatz auf einem SageMaker KI-Endpunkt vor mitModelBuilder. Weitere Informationen finden Sie unter Bereitstellen von MLflow-Modellen mit ModelBuilder.

AWS Identity and Access Management

Konfigurieren Sie den Zugriff auf MLflow, indem Sie die rollenbasierte Zugriffskontrolle (RBAC) mit IAM-einrichten. Schreiben Sie IAM-Identitätsrichtlinien, um die MLflow-APIs zu autorisieren, die von einem Client eines MLflow-Tracking-Servers aufgerufen werden können. Alle MLflow-REST-APIs werden als IAM-Aktionen unter dem Servicepräfix sagemaker-mlflow dargestellt. Weitere Informationen finden Sie unter Einrichten von IAM-Berechtigungen für MLflow.

AWS CloudTrail

Mithilfe von AWS CloudTrail Logins können Sie die Betriebs- und Risikoprüfungen, die Verwaltung und die Einhaltung der Vorschriften für Ihr AWS Konto durchführen. Weitere Informationen finden Sie unter AWS CloudTrail Protokolle.

Amazon EventBridge

Automatisieren Sie die Modellüberprüfung und den Bereitstellungszyklus mithilfe von MLflow-Ereignissen, die von Amazon EventBridge erfasst wurden. Weitere Informationen finden Sie unter EventBridge Amazon-Veranstaltungen.

Unterstützt AWS-Regionen

MLFlow-Tracking-Server

MLflow Tracking Server sind generell in allen AWS kommerziellen Regionen verfügbar, in denen Amazon SageMaker Studio verfügbar ist, mit Ausnahme der Regionen China. MLflow Tracking Server sind nur AWS CLI in den Regionen Europa (Zürich), Asien-Pazifik (Hyderabad), Asien-Pazifik (Melbourne) und Kanada West (Calgary) verfügbar.

Tracking-Server werden in einer einzigen Availability Zone innerhalb der angegebenen Region gestartet.

MLflow Apps

MLflow Apps sind in den folgenden Bereichen verfügbar: AWS-Regionen

  • Region USA Ost (Nord-Virginia)

  • Region USA Ost (Ohio)

  • Region USA West (Nordkalifornien)

  • US West (Oregon) Region

  • Region Asien-Pazifik (Mumbai)

  • Asia Pacific (Seoul) Region

  • Region Asien-Pazifik (Singapur)

  • Region Asien-Pazifik (Sydney)

  • Region Asien-Pazifik (Tokio)

  • Region Kanada (Zentral)

  • Region Europa (Frankfurt)

  • Region Europa (Irland)

  • Region Europa (London)

  • Region Europa (Paris)

  • Region Europa (Stockholm)

  • Region Südamerika (São Paulo)

Funktionsweise

Ein MLflow-Tracking-Server besteht aus drei Hauptkomponenten: dem Rechner, Backend-Metadatenspeicher und Artefaktspeicher. Die Rechenleistung, die den Tracking-Server hostet, und der Backend-Metadatenspeicher werden sicher im SageMaker AI-Servicekonto gehostet. Der Artefaktspeicher befindet sich in einem Amazon S3 S3-Bucket in Ihrem eigenen AWS Konto.

Ein Diagramm, das den Rechner und den Metadatenspeicher für einen MLflow-Tracking-Server zeigt.

Ein Tracking-Server hat einen ARN. Sie können diesen ARN verwenden, um das MLflow SDK mit Ihrem Tracking-Server zu verbinden und damit zu beginnen, Ihre Trainingsläufe in MLflow zu protokollieren.

Lesen Sie weiter, um weitere Informationen über die folgenden Schlüsselkonzepte zu erhalten:

Backend-Metadatenspeicher

Wenn Sie einen MLflow Tracking Server erstellen, wird innerhalb des SageMaker AI-Dienstkontos automatisch ein Backend-Speicher konfiguriert und vollständig für Sie verwaltet, der verschiedene Metadaten für jeden Lauf speichert, wie z. B. die Lauf-ID, Start- und Endzeiten, Parameter und Metriken.

Artefaktspeicher

Um MLflow persistenten Speicher für Metadaten bei jedem Lauf bereitzustellen, wie z. B. Modellgewichtungen, Bilder, Modelldateien und Datendateien für Ihre Experimentläufe, müssen Sie mit Amazon S3 einen Artefaktspeicher erstellen. Der Artefaktspeicher muss in Ihrem AWS Konto eingerichtet sein und Sie müssen MLflow ausdrücklich Zugriff auf Amazon S3 gewähren, um auf Ihren Artefaktspeicher zugreifen zu können. Weitere Informationen finden Sie unter Artefaktspeicher in der MLflow-Dokumentation.

Anmerkung

SageMaker AI MLflow hat eine Download-Größenbeschränkung von 200 MB.

Versionen der MLFlow-App

Die folgenden MLflow-Versionen können mit SageMaker AI MLflow Apps verwendet werden:

MLflow-Version Python-Version
mlFlow 3.10 (neueste Version) Python 3.10 oder höher

Die neueste Version der MLflow App bietet die neuesten Funktionen, Sicherheitspatches und Bugfixes. Wenn Sie eine neue MLflow App erstellen, wird diese automatisch auf die neueste unterstützte Version aktualisiert. Weitere Informationen zum Erstellen einer MLflow App finden Sie unter. Einrichtung der MLflow App

MLflow Apps verwenden semantische Versionierung. Die Versionen haben das folgende Format: major-version.minor-version.patch-version

Größen des MLflow-Tracking-Servers

Sie können optional die Größe Ihres Tracking-Servers in der Studio-Benutzeroberfläche oder mit dem Parameter angeben. AWS CLI --tracking-server-size Sie können zwischen "Small", "Medium" und "Large" wählen. Die Standardgröße für die Konfiguration des MLflow-Tracking-Servers ist "Small". Sie können die Größe entsprechend der voraussichtlichen Nutzung des Tracking-Servers wählen, z. B. gemäß der Menge der protokollierten Daten, der Anzahl der Benutzer und der Nutzungshäufigkeit.

Wir empfehlen die Verwendung eines kleinen Tracking-Servers für Teams mit bis zu 25 Benutzern, eines mittleren Tracking-Servers für Teams mit bis zu 50 Benutzern und eines großen Tracking-Servers für Teams mit bis zu 100 Benutzern. Bei diesen Empfehlungen gehen wir davon aus, dass alle Benutzer gleichzeitig Anforderungen an Ihren MLflow-Tracking-Server. Sie sollten die Größe des Tracking-Servers auf der Grundlage Ihres erwarteten Nutzungsmusters und den von jedem Tracking-Server unterstützten TPS (Transaktionen pro Sekunde) auswählen.

Anmerkung

Welcher TPS-Wert angezeigt wird, hängt von der Art Ihrer Workload und den an den Tracking-Server gestellten Anforderungen ab.

Größe des Tracking-Servers Anhaltende TPS Burst-TPS
Small Bis zu 25 Bis zu 50
Mittel Bis zu 50 Bis zu 100
Large (Groß) Bis zu 100 Bis zu 200

Tracking-Server-Versionen

Die folgenden MLflow-Versionen sind für die Verwendung mit SageMaker KI verfügbar:

MLflow-Version Python-Version
MLflow 3.0 (neueste Version) Python 3.9 oder höher
MLflow 2.16 Python 3.8 oder höher
MLflow 2.13 Python 3.8 oder höher

Die neueste Version des Tracking-Servers enthält die neuesten Funktionen, Sicherheitspatches und Bugfixes. Wenn Sie einen neuen Tracking-Server erstellen, empfehlen wir, die neueste Version zu verwenden. Weitere Informationen zum Erstellen eines Tracking-Servers finden Sie unter MLflow-Tracking-Server.

MLflow-Tracking-Server verwenden die semantische Versionsverwaltung. Die Versionen haben das folgende Format: major-version.minor-version.patch-version

Die neuesten Funktionen, wie neue UI-Elemente und API-Funktionen, sind in der Nebenversion enthalten.

AWS CloudTrail Protokolle

AWS CloudTrail protokolliert automatisch Aktivitäten im Zusammenhang mit Ihrem MLflow Tracking Server. Die folgenden API-Aufrufe der Kontrollebene werden protokolliert: CloudTrail

  • CreateMlflowTrackingServer

  • DescribeMlflowTrackingServer

  • UpdateMlflowTrackingServer

  • DeleteMlflowTrackingServer

  • ListMlflowTrackingServers

  • CreatePresignedMlflowTrackingServer

  • StartMlflowTrackingServer

  • StopMlflowTrackingServer

AWS CloudTrail protokolliert auch automatisch Aktivitäten im Zusammenhang mit Ihrer MLflow-Datenebene. Die folgenden API-Aufrufe der Datenebene werden protokolliert. CloudTrail Fügen Sie für Ereignisnamen das Präfix Mlflow (z. B. MlflowCreateExperiment) hinzu.

  • CreateExperiment

  • CreateModelVersion

  • CreateRegisteredModel

  • CreateRun

  • DeleteExperiment

  • DeleteModelVersion

  • DeleteModelVersionTag

  • DeleteRegisteredModel

  • DeleteRegisteredModelAlias

  • DeleteRegisteredModelTag

  • DeleteRun

  • DeleteTag

  • GetDownloadURIForModelVersionArtifacts

  • GetExperiment

  • GetExperimentByName

  • GetLatestModelVersions

  • GetMetricHistory

  • GetModelVersion

  • GetModelVersionByAlias

  • GetRegisteredModel

  • GetRun

  • ListArtifacts

  • LogBatch

  • LogInputs

  • LogMetric

  • LogModel

  • LogParam

  • RenameRegisteredModel

  • RestoreExperiment

  • RestoreRun

  • SearchExperiments

  • SearchModelVersions

  • SearchRegisteredModels

  • SearchRuns

  • SetExperimentTag

  • SetModelVersionTag

  • SetRegisteredModelAlias

  • SetRegisteredModelTag

  • SetTag

  • TransitionModelVersionStage

  • UpdateExperiment

  • UpdateModelVersion

  • UpdateRegisteredModel

  • UpdateRun

  • FinalizeLoggedModel

  • GetLoggedModel

  • DeleteLoggedModel

  • SearchLoggedModels

  • SetLoggedModelTags

  • DeleteLoggedModelTag

  • ListLoggedModelArtifacts

  • LogLoggedModelParams

  • LogOutputs

Weitere Informationen zu CloudTrail finden Sie im AWS CloudTrail Benutzerhandbuch.

EventBridge Amazon-Veranstaltungen

Wird verwendet EventBridge , um Ereignisse von der Verwendung von MLflow mit SageMaker KI an Verbraucheranwendungen in Ihrem Unternehmen weiterzuleiten. Die folgenden Ereignisse werden gesendet an EventBridge:

  • „SageMaker Tracking-Server wird erstellt“

  • „SageMaker Tracking-Server wurde erstellt“

  • „Die Erstellung des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „Aktualisierung des SageMaker Tracking-Servers“

  • „SageMaker Tracking-Server aktualisiert“

  • „Aktualisierung des SageMaker Tracking-Servers fehlgeschlagen“

  • „Löschen des SageMaker Tracking-Servers“

  • „Der SageMaker Tracking-Server wurde gelöscht“

  • „Das Löschen des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „Der SageMaker Tracking-Server wird gestartet“

  • „Der SageMaker Tracking-Server wurde gestartet“

  • „Der Start des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „Der SageMaker Tracking-Server wird gestoppt“

  • „Der SageMaker Tracking-Server wurde gestoppt“

  • „Stopp des SageMaker Tracking-Servers fehlgeschlagen“

  • „Serverwartung wird SageMaker verfolgt“

  • „Wartung des SageMaker Tracking-Servers abgeschlossen“

  • „Die Wartung des SageMaker Tracking-Servers ist fehlgeschlagen“

  • „SageMaker MLflow Tracking Server wird erstellt“

  • „SageMaker MLflow Tracking Server wird erstellt“ RegisteredModel

  • „SageMaker MLflow Tracking Server wird erstellt“ ModelVersion

  • „SageMaker ModelVersion Übergangsphase des MLflow Tracking Servers“

  • „SageMaker MLflow Tracking Server setzt registrierten Modell-Alias ein“

Weitere Informationen zu EventBridge finden Sie im EventBridge Amazon-Benutzerhandbuch.