echo "STARTING VLLM SERVE ON RAY CLUSTER"

if [ $# -ne 2 ]; then
    echo "Usage: $0 <ray_jobid> <head_node>"
    echo "Example: $0 160852 nid001024"
    exit 1
fi

RAY_JOBID=$1
HEAD_NODE=$2

source .venv/bin/activate
export TIKTOKEN_ENCODINGS_BASE="/projects/public/brics/distributed_vllm/etc/encodings"
export HF_HOME=/projects/public/brics/hf
export MODEL_PATH=$HF_HOME/hub/models--openai--gpt-oss-120b/snapshots/b5c939de8f754692c1647ca79fbf85e8c1e70f8a/
export HEAD_NODE_IP=$(dig +short ${HEAD_NODE})
MODEL_NAME="openai/gpt-oss-120b"
YAML_CONFIG="/projects/public/brics/distributed_vllm/GPT-OSS_Hopper.yaml"

module load brics/nccl
module list

export CC=gcc
export CXX=g++
export NCCL_CROSS_NIC=1
export NCCL_FORCE_FLUSH=0
export VLLM_LOGGING_LEVEL=DEBUG
export VLLM_ALLREDUCE_USE_SYMM_MEM=0
export VLLM_USE_RAY_COMPILED_DAG=1
export VLLM_USE_RAY_SPMD_WORKER=1
export VLLM_USE_RAY_SPMD_HEAD=1

srun \
    --overlap \
    --jobid=${RAY_JOBID} \
    --nodelist=${HEAD_NODE} \
    --nodes=1 \
    --gpus=4 \
    --ntasks-per-node=1 \
    bash -c "VLLM_HOST_IP=$HEAD_NODE_IP vllm serve \
    $MODEL_PATH \
    --served-model-name $MODEL_NAME \
    --distributed-executor-backend ray \
    --port 8000 \
    --max-num-seqs 512 \
    --config $YAML_CONFIG \
    --tensor_parallel_size=8"