ddm-wrap probleme

c14b4bab · Armin Bacher · f3c213d1 · c14b4bab
Commit c14b4bab authored 4 weeks ago by Armin Bacher
--- a/Benchmark_Training/GPT2M_MultiA100.py
+++ b/Benchmark_Training/GPT2M_MultiA100.py
@@ -96,6 +96,7 @@ def count_model_params(model):

 def train_model(attention_impl="torch"):
    model = get_gpt2_model(attention_impl)
+    config = model.config
    model = accelerator.prepare(model)

    train_args = TrainingArguments(
@@ -117,7 +118,7 @@ def train_model(attention_impl="torch"):
    global_batch_size = per_device_batch_size * world_size

    print(f"\n Benchmark-Konfiguration für {attention_impl.upper()}")
-    print(f"  Modell: GPT2 | Layers: {model.config.n_layer} | Embedding Dim: {model.config.n_embd}")
+    print(f"  Modell: GPT2 | Layers: {config.n_layer} | Embedding Dim: {model.config.n_embd}")
    print(f"  Sequence Length: {model.config.n_positions} | Batch Size: {per_device_batch_size} | Global Batch: {global_batch_size} | FP16: {train_args.fp16}")

    start_time = time.time()