--- title: Slurm 基本說明 | zh tags: Guide, TWNIA3, TW GA: --- {%hackmd @docsharedstyle/default %} # 基本說明 以下為Slurm 工作流程的基本概念: - 節點(Node): 在每一台節點安裝並且正確配置 slurm 就是一個運算節點,安裝slurm 稱之為Slurm Master 節點。 - 分區(Partition): 即是將多個節點組成一個集合,列隊(Queue)進行任務。不同節點的網路特性和硬體配置不同,透過分區可以幫助使用者選擇合適的節點進行運算。「--partition」跟「-p」是一樣的意思,也就是指定運行分區 - 任務(Job): 指在特定時間內替用戶進行一次的資源申請與分配,運行運算任務。 - 任務步驟(Job Step): 可將任務執行分成不同步驟,每個步驟能被視為子任務。使用者在執行任務時,可以拆分運算資源給不同子任務。 ![](https://cos.twcc.ai/SYS-MANUAL/uploads/upload_cb4afdc8a7acdbb91428276adcb85cdb.png) <div style="text-align:center"> [圖片出處:SchedMD](https://slurm.schedmd.com/overview.html) </div> :::info Slurm 亦可透過腳本方式來指定參數,在遞交任務後 Slurm 會自動解析這些參數。 - 「-\-node」可指定要運行的節點數量 - 「-\-mem」可指定運行的記憶體大小 - 「-\-partition」跟「-p」是一樣的意思,也就是指定運行分區的名稱 可直接透過以下指令「sbatch --help」來進行了解。 :::