联泰集群 AI 模型算法研发与加速平台 LtAI——域管理员使用手册

联泰集群 AI 模型算法研发与加速平台

LtAI

 

域管理员使用手册

 

 

 

 

 

 

 

 

 

 

 

 

联泰集群(北京)科技有限责任公司

202512

 


目录

1. 概述

2. 平台管理相关术语说明

2.1. 计算资源和存储资源

2.2. 容器

2.3.

2.4. 项目

2.5. 用户与用户组

2.6. 其他术语或缩略语

3. 用户管理

4. 专属资源配置和管理

4.1. 申请专属节点

4.2. 创建资源组

4.3. 创建资源规格

4.4. 创建资源队列

5. 资源查看

6. 多人共享容器操作

6.1. 创建用户

6.2. 创建容像

6.3. 各用户创建磁盘存储

6.4. 域管理员创建共享容器实例

 

 


1. 概述

本文为联泰集群AI模型算法研发与加速平台(简称LtAI的域管理员相关的管理功能使用方法进行说明。

读者对象为域管理员。

2. 平台管理相关术语说明

本节对LtAI平台涉及的术语、缩略语进行说明。理解这些术语、缩略语在平台使用和资源管理过程中至关重要。

2.1. 计算资源和存储资源

在智算、科学计算中所使用的计算机资源,一般包括计算资源、存储资源和网络资源。其中计算资源主要是运行计算任务所需要的算力,一般包括CPU核、GPU卡、内存。存储资源一般是指各种持久化存储空间,用于存储用户数据、模型、日志数据、结果数据、快照数据等,常见的有服务器本地硬盘存储空间、分布式网络存储空间。网络资源主要是指计算过程中进行节点间通信所需要的网络带宽、以及上传下载数据所需要的网络带宽等。

LtAI中,将网络资源纳入了计算资源中进行统一配置和管理,统称为“计算资源”;而“存储资源”主要是指在集群中能够统一管理和分配的分布式网络存储空间。

LtAI的算力调度功能,主要实现是对计算资源和存储资源的配置、管理和调度。

2.2. 容器

本平台的容器管理体系基于KubernetesK8s构建容器(Container是应用运行的基本单元,它提供了一种轻量级、可移植且隔离的运行环境。容器封装了应用程序及其依赖(如代码、运行时、系统工具、库等),确保应用在不同环境、不同节点、不同硬件上一致运行。容器具有以下特点。

1) 轻量高效

o 与传统虚拟机(VM)不同,容器共享宿主机的操作系统内核,无需单独启动操作系统,因此启动更快、资源占用更低。

o 适合微服务架构,支持高密度部署和快速弹性扩缩容。

2) 环境一致性

o 容器镜像(Image)采用分层存储(Layer)机制,确保开发、测试、生产环境的一致性,避免在我机器上能跑的问题。

3) 进程级隔离

o 通过Linux NamespaceCgroups机制实现进程、网络、文件系统等资源的隔离,保障应用互不干扰。

4) 动态生命周期

o K8S中,容器通常由Pod管理,可能因调度、故障或滚动更新被重建,因此容器本身是无状态的,数据默认不持久化持久化存储数据需依赖容器挂载的外部存储)。

 

请特别注意在容器云平台中,容器本身是轻量级、临时性的运行环境,其文件系统默认采用非持久化存储。这意味着:

 容器内数据的非持久性

容器运行时产生的数据(如日志、临时文件或应用运行时数据)默认仅存在于容器生命周期内。当容器停止、重启或删除时,这些数据将随之丢失。此设计符合容器的不可变基础设施(Immutable Infrastructure)原则,即容器应被视为一次性实体,而非长期存储数据的载体。

 持久化存储的必要性

如需长期保留数据(如数据库文件、配置文件或用户上传内容),必须将数据存储在容器外部的持久化存储中。平台支持通过挂载外部存储卷或绑定宿主机目录实现数据持久化。

 操作建议

o 避免将重要数据直接写入容器内部文件系统。

o 在部署时显式声明存储卷挂载,确保数据路径指向外部存储。

o 定期备份持久化存储中的数据,即使采用外部存储仍需防范意外删除或损坏。

通过合理规划存储策略,可兼顾容器的敏捷性与数据的可靠性。

 

2.3. 

域是平台中最高层级逻辑单元,代表一个相对独立的资源空间组织边界。一般可以将一个单位、一个部门、一个院系或一个课题组定义为一个域,其中包含若干用户、若干项目和若干资源。

域中可配置一个或多个域管理员,对域中的项目、用户和资源进行管理。与、项目、用户和资源的关系参见 1


1. 用户管理

域管理员可以管理域内的项目、用户、用户组及对应的角色、权限。

通过全局导航「认证与安全」-「项目」进入项目管理页面,点击菜单栏「新建」按钮,在弹出的表单中填写相关信息完成项目的创建及项目用户的添加。


通过全局导航「认证与安全」-「用户」进入用户管理页面,点击菜单栏「新建」按钮,可创建用户。


创建用户后,第二步可以跳过。

在用户列表中,点击用户,可以将用户加入项目并配置权限,如下图所示。

2 将用户加入项目并配置其角色


普通用户的角色配置为ai_editor”一个即可。

域管理员的角色配置为ai_admin”、“domainadmin”、“project_owner”三个。

 

1. 专属资源配置和管理

域管理员主要涉及的资源配置是对“专属资源”的配置和管理。

专属资源是指将平台纳管特定一个或多个节点,分配给域,由域管理员进行管理和配置,并只能由该域内的用户使用的资源。

专属资源由域管理员全权管理和控制。域管理员可以针对专属资源配置所需的算力规格、资源队里,供域内用户使用。

1.1. 申请专属节点

申请专属资源,前提是平台管理员创建好节点规格,并将拟分配给各域的专属资源节点标记上相应的节点规格。

在平台管理员完成了上述操作后,域管理员可以在 [机器学习  专属资源] 菜单项(如 3所示)进入专属资源管理页面,点击 [申请计算节点](如 4所示)。


3 专属资源管理入口


4 申请专属计算节点


在申请页面,域管理员可以看到被管理员设置为专属资源的节点类型及数量,可以在该页面申请对应的专属资源(5)。

5 选择专属计算节点规格

点击 [确认]后,对应的资源就会被设置为该域下的专属资源(6)。

6 申请到的专属资源节点


在申请到的专属节点列表中,可以看到节点的主要信息,包括节点ID、节点名称、节点状态(在线/离线)、所属资源组、资源总量、可分配资源、节点IP地址等。

其中“资源总量”一列可以看到节点所包含的主要资源数量,主要关注如下字段:

 cpuCPU核数):以微核(千分之一个CPU核,即将每个CPU核的计算能力划分为1000份)为单位,如 6中数据表示有127900微核,即127.9个核;

 memory(内存):如 6中数据表示有755GB内存;

 显卡类型和卡数:如 6中数据表示显卡类型为 nvidia.com/a6000,卡数为8

 RDMA存储网络带宽:如 6中数据表示RDMA存储网络为rdma/rdma_ib100,带宽为0(表示未启用),启用情况下该带宽值为1000,即将RDMA存储网络带宽分为1000份。

“可分配资源”一列,显示了类似的数据,表示当前可用的资源数量,即除去已被占用的资源,剩余数量有多少。

 

1.1. 创建资源组

资源组可以看做是一个用于标记节点类型的标签,在算力调度时会根据资源组这个标签去查找标记该资源组的节点,并从这些节点上分配算力。

一般情况下一种类型的计算卡会设置同一名称的资源组来表示。

在专属资源页面,选择 [专属资源  资源组] 标签,点击 [创建资源组] 按钮( 7),可创建一个新资源组( 8)。


7 资源组管理

8 创建资源组


设置完成资源组后,还需要到[专属节点]标签页,点击“操作”列中的[编辑]按钮,将对应的资源节点加入到创建好的资源组。

9 将节点加入资源组



4.3创建资源规格

资源规格的创建建议遵从1-2-4-8的配置,即1资源规格至8资源规格;对于CPU内存,也建议遵从1-2-4-8等比例进行配置;同时,建议预留少量CPU和内存作为计算节点的基础设施资源。

例如计算节点一共有128CPU768G的内存,8张计算卡,在设置1卡资源规格时,可以设置1计算卡、15CPU90Gi内存;这样对应的8卡资源就是8计算卡、120CPU720Gi内存;预留了部分CPU和内存作为计算节点的基础设施资源。

在编辑资源规格时(图 1),GPU标识一般为nvidia.com/显卡名,或者参考节点的可分配资源名称;内存的单位是Gi;

1 创建/编辑资源规格


GPU标识参考计算节点的资源描述,如所示。

2 GPU标识


如果计算节点有ib网络,这部分的资源被虚拟化成了rdma/rdma_ib100,数量为1000;遵从1-2-4-8的原则,1卡的资源规格对应的rdma/rdma_ib100资源量就是1000/8=1258卡的资源规格对应的rdma/rdma_ib100资源量就是1000

3 在“其它资源”中填写RDMA网络资源


4.4创建资源队列

在 [专属资源]页面的 [资源队列]标签页中点击 [创建队列]按钮(如图 4所示)可创建一个资源队列。

4 创建资源队列


5 资源队列的配置


首先要给资源队列命名,一般可以以GPU数量和团队名称来命名,例如“A6000x8_IVIM”,表示给IVIM团队使用的包含8A6000计算卡的一个资源队列。

资源队列的“权限”是指队列的可用范围,一般域管理员可配置为“团队共享”,这样在域下主项目内的用户都可以使用这个资源队列。这里如果设置为“个人私有”,则该队列只能由当前用户使用。

资源队列主要需要设置的参数为资源容量和资源规格;资源容量为该队列最大分配的资源数量,一般和计算卡数相关,例如设置为15卡的资源容量,对应的CPUmemory等资源就是15*单卡资源规格的数量;在下方同时关联资源规格的类型;如果一个队列的资源容量最大为4卡的计算资源,就可以设置最高为4卡的资源规格。

此外,在资源队列上还可以配置“主动资源回收策略”,该策略表示当某个使用该资源队列分配到资源的容器,其GPU使用率一直低于给定阈值达到给定时长后,容器将被自动关闭,释放掉其占用的资源。该策略默认“禁用”,即不会自动释放。如需开启,则就将其置为“启用”状态,并合理配置阈值和时长字段。

在资源队列编辑页面的下方设置“资源亲和”,选择之前创建的资源组名称并设置优先调度策略。这项配置实际就是让改资源队列中的资源请求(比如创建容器实例时)

6 资源队列中选择调度到哪个资源组


点击 [确定]按钮后,该资源队列即可创建好。在资源列表中可以查看该资源队列的状态。

资源队列创建好后,域内用户即可使用该队列创建工作负载(即各类容器)。如下图所示。

7 使用资源队列


5.资源查看

域内用户可以使用的资源分为两类:一类是由平台管理员给域内用户分配的公共资源池中的资源队列,另一类是由域管理员分配的专属资源的资源队列。

日常使用中,域管理员可以从[专属资源 –工作负载页面查看域内用户的资源负载和资源占用情况,如下图所示。

1 域内资源占用情况查看


6多人共享容器操作

6.1创建用户

首先由域管理员创建用户,或使用现有用户,记录用户名。

用户名为cs_test_usercs_test_user2cs_test_user3cs_test_user4

6.2 创建容像

创建共享容器实例的容器镜像,在构建容器镜像时将所需用户名添加为容器镜像中的系统用户。

按需修改dockerfile文件,注意修改root用户的初始密码。

修改为适合自己的基础镜像
FROM ubuntu:24.04
 
设置时区为上海
ENV TZ=Asia/Shanghai \
DEBIAN_FRONTEND=noninteractive
 
安装必要的软件包并配置SSH服务
RUN apt-get update && \
apt-get install -y tzdata && \
ln -sf /usr/share/zoneinfo/${TZ} /etc/localtime && \
echo ${TZ} > /etc/timezone && \
dpkg-reconfigure -f noninteractive tzdata
 
修改为其他的root密码
RUN apt-get update && \
apt-get install -y openssh-server vim curl wget && \
apt-get clean && \
rm -rf /tmp/* && \
echo "PermitRootLogin yes" >> /etc/ssh/sshd_config && \
echo "root:ts123ts123" | chpasswd && \
service ssh start
 
创建非root用户,修改所需用户名
RUN adduser --disabled-password --gecos '' cs_test_user && \
adduser --disabled-password --gecos '' cs_test_user2 && \
adduser --disabled-password --gecos '' cs_test_user3 && \
adduser --disabled-password --gecos '' cs_test_user4
 
启动命令为启动ssh服务,不能修改
ENTRYPOINT ["/usr/sbin/sshd", "-D"]
CMD ["-p","22"]
#CMD ["while true;do echo hello;sleep 100000;done"]


构建镜像:

dockerbuild . -t dev-share:v1


推送镜像(主要需要修改harbor库的路径,例如将harbor.gzu.atcloud.xyz/cs_test/改为harbor.gzu.atcloud.xyz/project/

dockertag dev-share:v1 harbor.gzu.atcloud.xyz/cs_test/dev-share:v1
dockerpush harbor.gzu.atcloud.xyz/cs_test/dev-share:v1


注册镜像,不需要填写启动命令,若修改过Dockerfile,则按实际需求填写启动命令。


6.3 各用户创建磁盘存储

每个用户创建用于共享容器实例的存储空间,并以“dev-share-自己用户名”命名,权限设置为团队共享,大小按需要进行设置,取消勾选对他人只读。

其他用户同样方式创建磁盘存储。

 

6.4域管理员创建共享容器实例

挂载所有用户用于共享容器实例的磁盘,并修改挂载位置为对应的系统用户根目录,不需要填写启动命令。

初次使用时,需要域管理员切换到不同用户将ssh公钥填写到每位用户的根路径。

su cs_test_user
cd ~
cat id_rsa.pub >> ~/.ssh/authorized_keys