slurm job defaults
Closed this issue · 2 comments
We should set a default memory allocation - and also look into if its possible to change the default CPU allocation
Yes. After discussion with AA: (In danish)
Der er en del flere CPUer på DGX A100 per GPU, og også mere host RAM per GPU, så default værdierne kan godt være højere. Vi har tidligere arbejdet med 2/3 belægning ved defaults. Så er der lidt plads for at andre kan øge værdierne, hvis man finder det passende. Altså
#CPUer * (2 / 3) / #Antal GPUer = DefCpuPerGpu = 256 * (2/3) / 8 ~ 20 CPUer per GPU
og
#Total Mem * (2 / 3) / #Antal GPUer = DefMemPerGpu = 980 * (2/3) / 8 = 80 GB per GPU (det er også 2 x device memory - den fingerregel jeg har hørt, er mellem 2-3 gange host memory til device memory... men ved ikke helt hvor det kommer fra, men så har man lidt plads til at pipe data fra disk -> host memory -> device memory)