Fixed UnexpectedKeywordError during training

b0c3c3cc · Riko Corwin Uphoff · 03dc8efa · b0c3c3cc · b0c3c3cc
Commit b0c3c3cc authored 2 weeks ago by Riko Corwin Uphoff
--- a/load_data.py
+++ b/load_data.py
@@ -86,8 +86,13 @@ def load_data_finetune(args, tokenizer):
        result["labels"] = batch["label"]
        return result
    
-    dataset = dataset.map(tokenize_function_finetune)
-    dataset.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
+    dataset = dataset.map(
+        tokenize_function_finetune,
+        batched=True,
+        remove_columns=dataset["train"].column_names,
+        desc="Running tokenizer on dataset",
+    )
+    dataset.set_format(type="torch")

    eval_dataset = dataset["validation_matched" if args.dataset == "glue_mnli" else "validation"]
    train_dataset = dataset["train"]

--- a/load_models.py
+++ b/load_models.py
@@ -33,11 +33,10 @@ def get_model(args):
                finetuning_task=arg_map[args.dataset][1],
            )
            if args.dtype == "bf16":
-                model = AutoModelForSequenceClassification.from_pretrained("roberta-base", num_labels=num_labels,
-                                                                           torch_dtype=torch.bfloat16, config=config)
-            else:
-                model = AutoModelForSequenceClassification.from_pretrained("roberta-base", num_labels=num_labels,
+                model = AutoModelForSequenceClassification.from_pretrained("roberta-base", torch_dtype=torch.bfloat16,
                                                                           config=config)
+            else:
+                model = AutoModelForSequenceClassification.from_pretrained("roberta-base", config=config)
            tokenizer = AutoTokenizer.from_pretrained("roberta-base")
        # elif args.model == "gpt2":
        #     model = AutoModelForSequenceClassification.from_pretrained("gpt2", num_labels=2)