Skip to content
Snippets Groups Projects
Commit 64899f18 authored by Armin Bacher's avatar Armin Bacher
Browse files

Delete run-multi.sh

parent cf3564c6
Branches
No related tags found
No related merge requests found
#!/bin/bash
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --gpus-per-task=2
#SBATCH --gres=gpu:2
#SBATCH --cpus-per-task=16
#SBATCH --mem=64G
#SBATCH --time=02:00:00
# Kopiere das Python-Skript auf den Rechenknoten
sbcast GPT2M_MultiA100.py /zpool1/slurm_data/anhnd/test4.py
# Lokalen Triton-Cache setzen (FlashAttention empfohlen)
export TRITON_CACHE_DIR=/tmp/triton_cache_$USER
mkdir -p "$TRITON_CACHE_DIR" || export TRITON_CACHE_DIR=$HOME/.cache/triton
# Set environment for distributed
export TOKENIZERS_PARALLELISM=false
# Optional (für Deepspeed oder fair scale): set NCCL
#export TORCH_DISTRIBUTED_DEBUG=DETAIL
#export NCCL_DEBUG=INFO
#export NCCL_SOCKET_IFNAME=^lo,docker
# Führe das Python-Skript mit absolutem Pfad aus und leite die Ausgabe ins Home-Verzeichnis um
srun --ntasks=1 --gpus-per-task=2 torchrun --nproc_per_node=2 /zpool1/slurm_data/anhnd/test4.py flash2 > ~/projekt/GPT2M_2GPU_output_${SLURM_JOB_ID}.log 2>&1
#Lösche die .py-Datei nach der Berechnung, um Speicherplatz zu sparen
srun rm /zpool1/slurm_data/anhnd/test4.py
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment