1. 创建任务
项目的运行是通过创建任务完成的,多次运行则形成多个任务。创建项目完成后,会跳转到任务创建界面,或者在项目的详情页中,点击新建任务
按钮。
任务运行前,需要配置运行参数,包括:docker镜像、节点类型、GPU个数、启动命令。
2. 运行任务
点击 保存并运行任务 将运行该任务。也可以仅保存这些配置。下次新建任务将默认填入最新保存过的配置。
3. 参数说明
a. 镜像
创建任务时,系统会根据项目设定的编程语言和算法框架筛选可用镜像,包括管理员预先编译的公共镜像和个人自定义的镜像,在筛选结果里用户再进一步选择使用哪一个镜像。镜像是Docker中的概念,每个在平台中提交的任务都由一个或多个容器来执行,而容器则是由镜像创建的运行实例。可以认为镜像打包了一个linux环境,包含了程序运行所需要的各项依赖。
b. 节点类型
集群有多种节点,配置了不同的GPU和CPU,性能和定价不同,需要使用者自行选择。任务只会被调度到所选择的类型的节点上。使用者常常还会关心资源的空闲情况,可以通过https://bitahub.ustc.edu.cn/resources 查看。
c. GPU/CPU个数
使用者可以自行选择任务运行时的GPU个数,所需的CPU资源和内存则按比例提供(不再可选)。
一般机器是配置8块GPU卡,所以可选的上限是8。如果使用者一次训练需要的GPU数量超过了上限,或者因为资源碎片化而愿意使用多个任务,那么你需要多次提交任务,或者使用多任务配置
对于有些节点类型(或者称之为队列),为避免同一台机器调度太多任务,以及资源碎片造成多卡任务迟迟无法获得资源,会限制只能提交多卡任务(如4卡或8卡)。
如果你点击”只CPU“按钮,那表示不需要GPU资源,会切换为CPU个数
,内存仍按比例提供。
d. 启动命令
任务启动命令。该命令执行完成后,任务也随之结束。
当有多个命令时,可以使用 ;
,&&
或||
将多命令连接,关于他们的区别,可以参考:https://www.gnu.org/savannah-checkouts/gnu/bash/manual/bash.html#Lists