diff --git a/Benchmark_Training/run-multi.sh b/Benchmark_Training/run-multi.sh deleted file mode 100644 index a967a7670b408317b7d61b60dd4ca0dc5a6a2d89..0000000000000000000000000000000000000000 --- a/Benchmark_Training/run-multi.sh +++ /dev/null @@ -1,28 +0,0 @@ -#!/bin/bash -#SBATCH --nodes=1 -#SBATCH --ntasks=1 -#SBATCH --gpus-per-task=2 -#SBATCH --gres=gpu:2 -#SBATCH --cpus-per-task=16 -#SBATCH --mem=64G -#SBATCH --time=02:00:00 - -# Kopiere das Python-Skript auf den Rechenknoten -sbcast GPT2M_MultiA100.py /zpool1/slurm_data/anhnd/test4.py - -# Lokalen Triton-Cache setzen (FlashAttention empfohlen) -export TRITON_CACHE_DIR=/tmp/triton_cache_$USER -mkdir -p "$TRITON_CACHE_DIR" || export TRITON_CACHE_DIR=$HOME/.cache/triton - -# Set environment for distributed -export TOKENIZERS_PARALLELISM=false - -# Optional (für Deepspeed oder fair scale): set NCCL -#export TORCH_DISTRIBUTED_DEBUG=DETAIL -#export NCCL_DEBUG=INFO -#export NCCL_SOCKET_IFNAME=^lo,docker - -# Führe das Python-Skript mit absolutem Pfad aus und leite die Ausgabe ins Home-Verzeichnis um -srun --ntasks=1 --gpus-per-task=2 torchrun --nproc_per_node=2 /zpool1/slurm_data/anhnd/test4.py flash2 > ~/projekt/GPT2M_2GPU_output_${SLURM_JOB_ID}.log 2>&1 -#Lösche die .py-Datei nach der Berechnung, um Speicherplatz zu sparen -srun rm /zpool1/slurm_data/anhnd/test4.py