Delete run-multi.sh

64899f18 · Armin Bacher · cf3564c6 · cf3564c6
Commit 64899f18 authored 3 weeks ago by Armin Bacher
--- a/Benchmark_Training/run-multi.sh
+++ b/Benchmark_Training/run-multi.sh
-#!/bin/bash
-#SBATCH --nodes=1
-#SBATCH --ntasks=1
-#SBATCH --gpus-per-task=2
-#SBATCH --gres=gpu:2
-#SBATCH --cpus-per-task=16
-#SBATCH --mem=64G
-#SBATCH --time=02:00:00
-
-# Kopiere das Python-Skript auf den Rechenknoten
-sbcast GPT2M_MultiA100.py /zpool1/slurm_data/anhnd/test4.py
-
-# Lokalen Triton-Cache setzen (FlashAttention empfohlen)
-export TRITON_CACHE_DIR=/tmp/triton_cache_$USER
-mkdir -p "$TRITON_CACHE_DIR" || export TRITON_CACHE_DIR=$HOME/.cache/triton
-
-# Set environment for distributed
-export TOKENIZERS_PARALLELISM=false
-
-# Optional (für Deepspeed oder fair scale): set NCCL
-#export TORCH_DISTRIBUTED_DEBUG=DETAIL
-#export NCCL_DEBUG=INFO
-#export NCCL_SOCKET_IFNAME=^lo,docker
-
-# Führe das Python-Skript mit absolutem Pfad aus und leite die Ausgabe ins Home-Verzeichnis um
-srun --ntasks=1 --gpus-per-task=2 torchrun --nproc_per_node=2  /zpool1/slurm_data/anhnd/test4.py flash2 > ~/projekt/GPT2M_2GPU_output_${SLURM_JOB_ID}.log 2>&1
-#Lösche die .py-Datei nach der Berechnung, um Speicherplatz zu sparen
-srun rm /zpool1/slurm_data/anhnd/test4.py