Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Support für FlashAttention
Support für FlashAttention ist eine Funktion der Bibliothek, die nur für das verteilte Transformer-Modell gilt. Dabei handelt es sich um ein Transformer-Modell, das für das modellparallele Training von smp.DistributedModel()
Die FlashAttention-Bibliothekattention_head_size auf einen Wert gesetzt ist, der ein Vielfaches von 8 und kleiner als 128 ist. Wenn Sie also einen verteilten Transformator trainieren und sichergehen wollen, dass FlashAttention ordnungsgemäß funktioniert, sollten Sie die Parameter so anpassen, dass die Kopfgröße der Aufmerksamkeit den Anforderungen entspricht. Weitere Informationen finden Sie auch unter Installation und Funktionen
Nehmen wir z. B. an, Sie konfigurieren ein Transformator-Modell mit hidden_width=864 und num_heads=48. Die Kopfgröße von FlashAttention wird zu attention_head_size = hidden_width / num_heads = 864 / 48 = 18 berechnet. Um FlashAttention zu aktivieren, müssen Sie den num_heads Parameter auf 54 einstellen, so dass attention_head_size = hidden_width / num_heads = 864
/ 54 = 16, der ein Vielfaches von 8 ist.