diff --git a/Benchmark_Training/GPT2_TrainingBenchmark.py b/Benchmark_Training/GPT2_TrainingBenchmark.py index 1f1e72b2a3434a371cfcb7858388a1dda630dac7..1068bb69c68eb3ec70ddc00d320d919c16a1c7b0 100644 --- a/Benchmark_Training/GPT2_TrainingBenchmark.py +++ b/Benchmark_Training/GPT2_TrainingBenchmark.py @@ -1,7 +1,7 @@ # GPT2 Benchmark: Replikation FlashAttention-2 Paper auf A100 GPUs # --------------------------------------------------------------- # Dieser Code benchmarkt das Training von GPT2-Medium auf dem WikiText-103-Datensatz, -# mit verschiedenen Attention-Implementierungen (torch, flash, flash2). +# mit verschiedenen Attention-Implementierungen (torch, flashattention-1, flashattention-2). # Ziel: Vergleich von Laufzeit, Speicherverbrauch und FLOPs mit Fokus auf FlashAttention-2. import os