optimierungen für Multigpu

a42b15ea · Armin Bacher · c8576115 · a42b15ea
Commit a42b15ea authored 4 weeks ago by Armin Bacher
--- a/Benchmark_Training/run-multi.sh
+++ b/Benchmark_Training/run-multi.sh
 #!/bin/bash
 #SBATCH --nodes=1
-#SBATCH --ntasks=2
-#SBATCH --mem=64G
+#SBATCH --ntasks=1
+#SBATCH --gpus-per-task=2
 #SBATCH --gres=gpu:2
-#SBATCH --cpus-per-task=8
-#SBATCH --time=04:00:00
+#SBATCH --cpus-per-task=16
+#SBATCH --mem=64G
+#SBATCH --time=02:00:00

 # Kopiere das Python-Skript auf den Rechenknoten
 sbcast GPT2M_MultiA100.py /zpool1/slurm_data/anhnd/test4.py

+# Lokalen Triton-Cache setzen (FlashAttention empfohlen)
+export TRITON_CACHE_DIR=/tmp/triton_cache_$USER
+mkdir -p "$TRITON_CACHE_DIR" || export TRITON_CACHE_DIR=$HOME/.cache/triton
+
 # Set environment for distributed
 export TOKENIZERS_PARALLELISM=false
-# Setze lokalen Triton-Cache für FlashAttention (nicht auf NFS!)
-if [ -z "$TRITON_CACHE_DIR" ]; then
-  export TRITON_CACHE_DIR="/tmp/triton_cache_$USER"
-fi
-# Stelle sicher, dass das Verzeichnis existiert, sonst Fallback
-mkdir -p "$TRITON_CACHE_DIR" || export TRITON_CACHE_DIR="$HOME/.cache/triton"
+
 # Optional (für Deepspeed oder fair scale): set NCCL
-export NCCL_DEBUG=INFO
-export NCCL_SOCKET_IFNAME=^lo,docker
+#export TORCH_DISTRIBUTED_DEBUG=DETAIL
+#export NCCL_DEBUG=INFO
+#export NCCL_SOCKET_IFNAME=^lo,docker

 # Führe das Python-Skript mit absolutem Pfad aus und leite die Ausgabe ins Home-Verzeichnis um
-srun python3.11 /zpool1/slurm_data/anhnd/test4.py torch > ~/projekt/GPT2M_2GPU_output_${SLURM_JOB_ID}.log 2>&1
+srun --ntasks=1 --gpus-per-task=2 torchrun --nproc_per_node=2  /zpool1/slurm_data/anhnd/test4.py flash2 > ~/projekt/GPT2M_2GPU_output_${SLURM_JOB_ID}.log 2>&1
 #Lösche die .py-Datei nach der Berechnung, um Speicherplatz zu sparen
 srun rm /zpool1/slurm_data/anhnd/test4.py