联泰集群 LtAI 人工智能加速平台软件——技术白皮书

联泰集群LtAI人工智能加速平台软件技术白皮书










联泰集群LtAI人工智能加速平台软件


技术白皮书

V2.0.1
















联泰集群(北京)科技有限责任公司

20259


1. 引言

随着人工智能/大模型技术的迅猛发展,特别是大语言模型正日益成为推动社会生产力变革的新引擎,企业及科研机构在开发与应用落地过程中仍面临底层算力复杂、资源利用率低、开发运维链条割裂等巨大的工程化挑战。联泰集群作为深耕计算领域的高新技术企业,始终致力于为客户提供卓越的计算力,推出的LtAI人工智能加速平台正是这一理念的集中体现。

该平台不仅是一个工具集,更是一个完整的生态系统,通过高效算力资源调度、系统化大模型优化、敏捷应用开发与发布、异构算力支持等核心能力,为客户提供从底层异构算力到顶层模型应用的一体化解决方案,打通全链路、大幅提升大模型开发、训练、推理及部署的全生命周期效率,最终赋能企业智能化升级。



1 LtAI为用户屏蔽复杂的工程化工作、让用户专注业务和创新

联泰集群LtAI人工智能加速平台旨在为客户提供一款高效、敏捷、开放、易用AI基础设施平台软件

1. 术语和缩略语


1 术语和缩略语

术语/缩略语

概念或说明

AI

人工智能(Artificial Intelligence),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。例如:人脸识别技术,语音识别技术、基于用户兴趣的智能算法推荐技术。

机器学习

机器学习(Machine Learning,缩写为ML),是人工智能技术的一种,是研究计算机模拟人类的学习活动,获取知识和技能的理论和方法,改善系统性能的学科。深度学习是一种机器学习技术;而大模型又可算作是一种深度学习技术。

大模型

大模型技术是指采用深度学习等先进技术构建的具有庞大参数量的神经网络模型,这些模型通常包含数百万至数十亿乃至上万亿的参数。大模型的核心优势在于其强大的泛化能力和表征能力,能够在处理自然语言处理、计算机视觉、语音识别等复杂任务时展现出优越的性能。

IaaS

基础架构即服务,也称为云基础架构服务,是一种经由互联网向最终用户提供 IT 基础架构的云计算形式。一遍提供虚拟化主机、存储、网络、裸金属主机等云资源。

K8S

Kubernetes,是一个容器编排引擎,用来对容器化应用进行自动化部署、扩缩和管理。

算力云

算力云(Cloud Computing Power)是指基于云计算技术,专门为用户提供强大计算能力的服务形式。它是云计算的一个分支,特别强调在云端提供的高性能计算资源,旨在满足用户对于大规模数据处理、复杂计算任务和高性能应用的需求。

分布式文件系统

分布式文件系统(Distributed File System, DFS)是一种特殊的文件系统管理方式,它使得文件系统的物理存储资源能够跨越多个通过计算机网络连接的节点,而非局限于单一本地节点上。这一设计允许将存储资源分散到网络中不同的位置,同时向用户提供一个统一的、逻辑上的树形文件系统结构,从而使得访问和管理分布在不同地点的文件如同操作本地文件一样便捷。

IB网络

InfiniBand网络,是一种高性能计算机网络通信标准,设计用于提供极高的数据传输带宽和极低的延迟,以满足特定应用场景下对数据传输速度和效率的严苛要求。InfiniBand技术最初是为了替代早先的PCI总线和其他系统互连技术而开发的,后来发展成为一种主要面向数据中心、高性能计算(HPC)集群和企业级存储的网络解决方案。

RoCE网络

RoCERDMA over Converged Ethernet)网络是一种技术,它允许在以太网上实现远程直接内存访问(RDMA)。RDMA技术能够让网络中的数据直接从一台服务器的内存传输到另一台服务器的内存中,绕过了传统的网络协议栈和操作系统处理过程,从而显著降低数据传输的延迟并提高网络的吞吐量。

RBI技术

远程浏览器隔离(Remote Browser Isolation, RBI)技术,将网页浏览活动转移到远程服务器上执行,服务器将网页内容转化为安全的图像或HTML流传输给用户,而不是在用户的本地设备上直接进行渲染和执行,从而阻止潜在的恶意代码或攻击活动进入用户系统或远程服务器。

1. 产品价值

LtAI 的设计初衷是解决算力应用的复杂性问题,为算力用户提供高效、易用的算力服务。平台的优势体现在以下几个方面:

1) 开箱即用的一体化AI模型全流程支持

联泰集群LtAI人工智能加速平台面向人工智能模型算法研发和人工智能行业应用,提供了覆盖AI模型开发数据-训练-部署-应用全生命周期的一体化开发环境与端到端工具链能力支撑,既覆盖从研发初期到应用落地的关键环节,助力降低技术门槛、提升开发效率,又能让用户专注于开发逻辑本身,无需在环境搭建、驱动配置、参数调整等底层重复性工作和细节调整上耗费精力。


2 一体化AI模型全流程支持

    1) 面向AI的系统性优化

    LtAI基于集群网络拓扑感知、算力资源调度优化、GPU虚拟化与GPU透传、高速网络支持、训练/推理加速等技术,提供开箱即用的高速模型训练与推理框架,有效提高模型训练推理运行效率。


    3 面向AI的系统性优化

      1) 跨区域跨集群的算力统一纳管

      支持通过广域网或局域网跨区域、跨机房纳管多个集群。

      2) 灵活强大的资源管理调度能力

      基于资源分组、任务队列、资源配额机制,满足各种资源管理调度的需求,适用于单用户、多用户、多团队等多种场景的资源管理调度需求。

      3) 国产异构算力融合应用

      LtAI可以支持国产芯片和通用芯片,同时在应用框架、容器、驱动、操作系统等各个层次做了适配和优化,为用户选择底层算力设备提供了灵活的空间。

      4) 可视化资源管控

      支持多层次、多角度算力资源的可视化监控和告警

      1. 核心功能特性

      1.1. 快速构建人工智能模型与算法开发环境

      联泰集群LtAI平台提供了在线开发容器实例功能,基于该功能,用户可以快速构建人工智能模型与算法的一体化开发环境。


      4 快速构建人工智能模型与算法开发环境


      1.1. 多级用户体系与权限管理

      联泰集群LtAI平台提供了域-项目-用户的多级用户体系。


      5 多级用户体系

      域是平台中最大的逻辑单元,代表一个相对独立的资源空间组织边界。一般可以将一个单位、一个部门、一个院系或一个课题组定义为一个域,其中包含若干用户、若干项目和若干资源;域中可配置一个或多个域管理员,对域中的项目、用户和资源进行管理。

      项目是平台进行资源管理的单位,平台中将一个资源集合(包括CPUGPU、内存、存储空间等)绑定在项目中。一个项目可以绑定多个用户,这些用户可以共同使用项目中的资源,共享项目中的数据。

      用户对应于使用平台的个人,每个用户具有独立的账号(用户名和密码)登录平台,从而使用或管理平台中的资源、数据,以及平台中运行的容器、服务和功能。

      同时,平台支持自定义角色权限,可配置用户对功能、数据的访问权限。

      基于这样的机制,平台提供了完善、灵活的用户权限管理体系,适用于不同的使用场景,满足用户对权限管理的各种要求。

      1. 平台核心架构

      1.1. 架构设计

      联泰集群LtAI人工智能加速平台是以容器为单位向用户提供资源和功能,基本的设计原则包括:

      ² 云原生:基于Kubernetes构建,具备弹性伸缩、高可用、自修复能力。

      ² 异构兼容:支持NVIDIA/AMD/国产等多种AI加速卡。

      ² 解耦与开放:支持与各种开源AI框架、工具链和生态系统集成,避免厂商锁定,支持扩展。

      ² 安全为先:多租户隔离、网络策略、数据加密全方位安全设计。

      整体功能结构图如下。


      11  LtAI平台功能结构图

      从下向上对四个层次介绍如下。

      1) 基础设施层

      作为平台的“硬件承载层”,负责整合异构硬件资源并提供标准化接入能力,是AI任务运行的基础保障。

      ² 核心组件:异构算力集群(支持 NVIDIA、华为昇腾、天数智芯、摩尔线程等国内外常见GPU/AI芯片)、高性能分布式存储、高速计算网络(InfiniBand / RDMA RoCE v2)、服务器节点管理;

      ² 协同逻辑:接收“核心能力层”的资源调度指令,将算力、存储、网络资源封装为标准化接口,供上层调用;同时向“运维与管控层”实时上报硬件状态(如 GPU 温度、存储使用率);

      2) 核心能力层

      平台的“业务中枢”,聚焦AI开发全流程的核心能力封装,解决算力调度、数据管理、模型生命周期管控等核心问题。

      ² 核心组件:AI专属调度器(基于Kubernetes扩展,支持GPU分片、亲和性调度、任务优先级抢占)、数据管理引擎(数据集版本控制、多源数据接入、权限隔离)、模型生命周期管理模块(训练任务提交/断点续训、模型部署)、监控与告警中心(实时采集任务运行指标与资源负载)。

      ² 协同逻辑:向下调用“基础设施层”的硬件资源,向上为“应用与工具层”提供能力接口(如训练任务 API、模型部署接口);同时接收“运维与管控层”的配额限制(如用户GPU使用上限),确保资源合规使用。

      3) 运维与管控层(支撑保障)

      平台的“运营保障层”,面向IT运维人员与企业管理者,提供平台安全、资源管控与成本优化能力。

      ² 核心组件:多级用户管理(划分域-项目-用户,配置资源配额与功能权限)、安全管控中心(容器镜像漏洞扫描/网络访问ACL策略)、计量计费引擎(按用户统计算力和存储消耗,生成可视化账单)、自动化运维工具(支持节点自愈、日志集中管理)。

      ² 协同逻辑:对其他三层进行全维度管控 —— 向 “核心能力层” 下发资源配额限制,向“基础设施层”下发节点运维指令(如扩容/缩容),向“应用与工具层”开放租户权限接口;同时接收各层上报的运行数据,生成运维报表与告警信息。

      4) 应用与工具层(SaaS 化能力)

      平台的“功能交互层”,提供贴近AI开发者与业务人员的可视化工具,降低技术使用门槛。

      ² 核心组件:开发环境管理、训练任务管理、模型推理服务管理、存储空间/数据集管理、AI应用管理。

      ² 协同逻辑:开发者通过工具发起开发需求(如提交训练任务、上传数据集),工具将需求转化为标准化指令传递至“核心能力层”,由“核心能力层”调度底层资源完成执行;执行结果(如训练日志、模型服务地址)通过工具实时反馈给用户。

       

      1.1. 部署架构

      LtAI平台支持单个或多个(异地的)智算中心的联合部署,提供统一的资源访问入口,统一的算力管理和算力调度。

      在部署上,平台分为控制面集群和用户面集群。

      控制面集群可部署在通用服务器上,负载着平台的主要功能模块的运行,可基于一个或多个主节点的方案进行部署,其中多主节点方案可提供高可用、高可用、高负载的算力管理与调度。

      用户面集群用于集中纳管算力中心各机房的算力节点。一般按照节点间网络连接的情况进行集群划分,应确保一个集群内部节点间具有较高的网络传输带宽和较低网络传输时延。

      控制面集群的功能模块,通过集群间的网络链路进行任务下发、算力调度、设备监控与管理等操作,实现统一的资源访问能力。


      1 部署架构

      集群间的通信(包括管理面与算力集群间的通信)主要承载控制与监测指令的传输,对传输带宽和传输延迟要求不高,可以支持局域网(以太网)或广域网进行集群连接,这样可以很好地支持跨地区的算力集群统一纳管和统一调度。

       

      1. 典型应用场景

      1.1. 院校/科研院所的服务器集群管理

      场景描述

      高校、科研院所等机构在开展 AI 前沿研究(如大语言模型、多模态模型、自动驾驶算法)时,常面临三大核心挑战:一是科研机构内通常有多个研究团队、数十甚至上百个用户共享有限算力资源,易出现资源抢占问题,如核心项目因算力被占用被迫停滞,或低优先级任务长期占用资源导致算力浪费;二是科研团队以研究人员为主,专业运维人员配置较少,面对集群扩容、硬件故障排查、系统故障修复等复杂运维工作时人力不足,往往需消耗大量研究时间处理运维问题,严重影响研究进度;三是多机多卡训练与推理任务是科研常见需求,但此类任务配置极为复杂,需手动完成跨节点网络配置、算力亲和性设置、分布式框架参数调试等操作,用户需花费数天甚至数周搭建环境,大幅压缩算法研发与实验时间。

      应用模式

      针对高校构核心痛点,提供资源有序调度 + 轻量化运维 + 环境一键配置的应用模式:

      ² 资源智能调度与隔离:搭建专属统一算力池,支持按研究团队、项目类型创建多级资源分组,为核心项目设置任务优先级,当资源紧张时优先保障高优先级任务运行;同时提供资源预约功能,用户可提前锁定特定时段的多机多卡资源,避免临时抢占;配置资源使用上限,防止单一团队或用户长期占用过多资源,确保算力公平分配;

      ² 全流程运维工具支撑:提供一键集群部署工具,支持快速完成新节点接入与集群初始化,无需手动配置底层系统;内置故障自动诊断模块,实时监测节点硬件状态(如 GPU 温度、内存健康度)与系统运行日志,当出现故障时自动定位问题根源并生成修复建议,简化故障排查流程;支持远程运维操作,运维人员无需现场即可完成节点重启、参数调整等操作,降低人力投入;

      ² 多机多卡环境一键配置:预置多机多卡训练 / 推理环境模板,涵盖 TensorFlowPyTorch 等主流框架的分布式配置,集成 RDMA 网络优化参数与算力亲和性策略,用户只需选择任务类型(如 8 卡训练、16 卡推理)与框架版本,即可一键生成标准化环境,无需手动调试跨节点通信与参数设置;支持环境自定义保存,用户可将调试好的专属环境保存为模板,后续任务直接复用,减少重复配置工作;

      ² 训练全周期管控:支持通过 Web 界面或 API 提交多机多卡任务,实时监控训练进度、资源状态(GPU显存/算力利用率、节点网络带宽)。

      平台价值

      ² 资源利用效率与公平性双提升:通过智能调度与优先级管理,GPU资源平均利用率提升至80%以上,核心项目任务等待时间缩短70%,同时避免资源抢占导致的矛盾,保障各团队公平使用算力;

      ² 运维压力显著减轻:自动化运维工具将故障排查时间从数天缩短至数小时,减少90%的运维人力投入,让研究人员无需分心于运维工作,专注于算法创新与实验设计;

      ² 环境配置效率大幅优化:多机多卡环境搭建时间从数天/数周压缩至几分钟,用户可快速启动实验,将更多时间投入到模型调优与研究创新中,实验迭代周期缩短60%以上,助力科研团队更快产出研究成果。

       

      1.2. 大型企业多团队 AI 研发协同场景

      场景描述

      大型企业(如互联网、金融、制造企业)内部通常设有多个 AI 研发团队,分别负责不同业务方向的AI项目(如用户画像、智能风控、设备故障预测等)。各团队面临共性痛点:一是GPU等高端算力资源分散在不同部门,存在 部分团队算力闲置、部分团队算力紧缺的资源不均衡问题;二是各团队独立搭建 AI 开发环境,环境版本不统一导致算法模型迁移困难,且重复配置工作占用大量研发时间;三是缺乏统一的资源使用监控与成本核算机制,无法精准掌握各团队算力消耗情况,难以进行成本优化。

      应用模式

      联泰集群LtAI人工智能加速平台采用 统一算力池 + 多租户隔离的应用模式:

      ² 资源整合:将企业分散的 GPU 服务器、CPU 集群、分布式存储等硬件资源接入平台,构建企业级统一算力池,由平台进行集中管理与调度;

      ² 多租户配置:为每个AI研发团队创建独立租户,设置专属资源配额(如最大GPU使用数量、存储容量上限、任务并发数),同时支持租户内子账号权限划分(如研发人员仅能提交任务、管理员可调整配额);

      ² 环境标准化:平台预置多种AI开发环境模板,用户也可按照需求自定义所需的开发环境模版,团队成员可一键启动标准化环境,也可基于模板自定义环境并保存为团队私有模板;

      ² 智能调度与监控:当团队提交训练任务时,平台根据任务优先级、算力需求(如单卡 / 多卡、显存占用)自动匹配算力池中的空闲资源,避免资源争抢;同时,平台实时监控各租户资源使用情况,生成可视化报表(如算力利用率、任务完成率),辅助企业掌握资源使用状态。

      平台价值

      ² 资源利用率提升:通过统一算力池与智能调度,企业 GPU 资源平均利用率从10%-30%提升至70%以上,减少算力闲置浪费,降低硬件采购成本;

      ² 研发效率优化:标准化环境省去团队80%的环境配置时间,算法工程师可专注于模型研发与调优,项目迭代周期显著缩短;

      ² 成本可控性增强:精细化的租户资源监控让企业清晰掌握各团队、各项目的算力消耗,为成本分摊与预算规划提供数据支撑,避免无序投入。

       

      1.3. 中小企业AI化转型场景

      场景描述

      中小企业(如零售企业、中小型制造企业)在推进 AI 化转型时,受限于资金、技术、人才等资源,面临想做但不敢做的困境:一是缺乏专业AI技术团队,无法搭建稳定的 AI 开发与运行环境,也难以解决模型部署、服务维护等技术问题;AI应用场景分散(如零售企业的智能推荐、库存预测,制造企业的质检、能耗优化),需灵活适配不同场景的算力与工具需求,传统固定架构难以满足。

      应用模式

      联泰集群LtAI人工智能加速平台为中小企业提供“快速应用构建平台 + 场景化工具链的低成本、低门槛应用模式:

      ² 场景化工具模板:针对中小企业常见 AI 场景,预置标准化工具模板(如“制造质检模板” 包含图像标注工具、目标检测模型、实时推理服务),企业只需上传自有数据,即可一键启动场景化任务,无需从零搭建流程;

      ² 可视化低代码操作:平台采用拖拽式界面设计,支持通过可视化流程编排完成“数据上传→模型训练→部署上线”全流程,无需编写复杂代码;同时提供模型性能评估、服务监控等可视化工具,帮助企业快速验证应用效果;

      ² 本地化+云化灵活部署:支持平台本地化部署(适用于数据敏感型企业)或云化接入(适用于无机房条件的企业),满足不同数据安全与基础设施条件的需求。

      客户价值

      ² 转型周期显著缩短:标准化工具模板与全流程可视化操作,使中小企业从数据准备到 AI 应用上线的周期从3-6个月压缩至1-2周,快速实现AI价值落地和持续迭代完善,让客户真正获得AI技术的价值;

      ² 技术门槛彻底打破:无需专业AI团队即可完成模型开发与部署,解决中小企业“缺技术、缺人才”的核心痛点,推动AI技术在中小企业的普及应用。

       

      1.4. 智算算力中心用户场景

      场景描述

      智算算力中心作为提供公共AI算力服务的核心载体,服务对象涵盖科研机构、中小企业、大型企业分支团队等不同类型用户,运营过程中面临三大核心挑战:一是用户需求差异大,既有科研团队的多机多卡大规模训练需求,也有中小企业的单卡轻量化推理需求,还有企业临时的高并发算力需求,传统固定算力分配模式难以适配多样化需求,易导致算力闲置或供需错配;二是缺乏精细化的资源管控能力,用户可能超量占用算力资源或长时间闲置已申请资源,导致算力中心整体利用率偏低(部分智算中心GPU利用率不足20%),运营收益受影响;三是用户数据安全与服务质量难以保障,不同用户的任务数据、模型文件需严格隔离。

      应用模式

      联泰集群LtAI人工智能加速平台针对智算算力中心运营需求,提供多维度资源调度 + 精细化管控 + 安全隔离保障的应用模式:

      ² 需求适配型资源调度:构建智算中心统一算力资源池,按用户需求类型划分调度策略针对大规模训练用户,提供多机多卡专属资源组,支持 RDMA 网络优化与分布式框架适配;针对轻量化推理用户,提供单卡 / 算力分片资源,灵活匹配小算力需求;针对临时高并发用户,预留应急算力池,通过任务优先级调度快速响应突发需求,实现需求 - 资源精准匹配;

      ² 全流程资源管控:支持按用户类型、任务类型设置资源使用规则,如为科研用户配置最长任务运行时长(避免资源长期闲置),为企业用户设置算力使用上限(防止超量占用);提供资源使用实时监控面板,运营人员可直观查看算力池整体利用率、各用户资源消耗占比、闲置资源分布,及时回收低效占用资源;生成运营分析报表,统计不同时段、不同用户群体的算力需求规律,为算力扩容、资源调配提供数据支撑;

      ² 多层级安全:采用物理隔离 + 逻辑隔离双重机制,为每个用户创建独立资源池与存储空间,限制跨用户数据访问,同时对数据传输(HTTPS/TLS加密)、存储(文件加密)全环节防护,杜绝数据泄露;

      ² 用户自助化服务:提供用户自助管理界面,支持用户自主申请算力资源、选择环境模板(如 TensorFlow 训练环境、ONNX 推理环境)、提交任务与查看运行状态,减少运营人员人工干预;支持用户自定义环境保存与复用,提升用户使用效率

      平台价值

      ² 运营效率与收益双提升:通过精准调度与闲置资源回收,单位算力收益增加;基于需求规律的资源规划,避免盲目扩容,降低硬件投入成本;

      ² 用户满意度显著提高:多样化需求适配满足不同用户场景,解决用户数据安全顾虑,自助化服务减少用户等待时间,助力智算中心吸引更多用户;

      ² 运营管理成本降低:自动化资源管控与用户自助服务,减少60%的人工运营工作量,运维人员可专注于集群核心维护,同时精细化运营报表简化决策流程,提升管理效率。

       

      2. 技术规格



      功能分类

      功能模块

      技术规格

      数据集与存储

      数据集

      支持公共数据集、团队共享数据集、用户私有数据集;

      支持数据集发布和版本管理;

      支持查看数据集文件,支持数据集文件的上传、下载、删除等操作;

      支持从modelscopehuggingface等第三方平台直接导入数据集。

      存储磁盘

      支持用户私有存储空间,可上传下载用户个人数据,用于模型的开发和训练。

      模型开发

      模型开发

      提供Jupyter NotebookVSCode等主流开发环境;支持将数据集和存储空间挂载到开发环境,支持用户自定义挂载路径,支持选择只读或读写模式;

      集成pytorchTensorFlowMindSpore等多种深度学习框架容器镜像;用户可基于公共镜像、自定义镜像创建开发容器;支持设置容器实例的工作目录、启动命令、启动参数、环境变量和端口映射;支持设置容器实例的权限为个人私有、团队共享或公共共享;

      提供基于容器的模型开发环境,支持容器实例的创建、停止、启动、删除等管理功能,支持直接访问容器实例的web服务,支持以第三方ssh客户端和webshell方式登陆容器实例控制台,支持容器实例启动后设置容器实例的端口映射,支持将容器实例保存为镜像;

      支持查看容器实例运行日志、事件和CPU使用率、内存使用量、GPU/NPU利用率、温度、显存使用量、功耗等资源状态监控,支持用户自定义查询时间窗口和数据刷新频率。

      模型管理

      支持模型管理,创建模型支持设置模型名称、模型描述、模型文档,支持选择模型的存储磁盘,设置模型路径和共享权限,支持设置为个人私有、团队共享和公共共享;

      支持模型的编辑、发布、导入和删除,支持从modelscopehuggingface等第三方平台直接导入模型文件;支持为模型添加标签,支持模型的版本管理,记录模型的创建和更新时间。

      模型推理

      通过Web界面快速创建推理服务,为用户提供可调的用API接口,记录创建和更新时间,支持推理服务的启动、停止、编辑和删除;支持调整副本数量;

      支持设置推理服务的名称,选择有状态服务或无状态服务,支持设置服务权限为个人私有、团队共享或公共共享;

      支持将数据集和存储空间挂载到推理服务,支持用户自定义挂载路径,支持选择只读或读写模式;用户可基于公共镜像、自定义镜像创建推理服务;支持设置推理服务的工作目录、启动命令、启动参数、环境变量、到期时间和IP白名单;支持选择服务流量入口节点。

      模型训练

      支持单机多卡、多机多卡分布式并行训练功能;能够在界面查看训练日志数据,能够通过Web SSH访问训练容器实例;

      平台集成TensorFlowpytorchMPImindspore等多种计算框架,支持Master/WorkerPS/WorkerLauncher/WorkerScheduler/Server/Worker多种分布式训练模式;

      支持查看模型训练的运行日志、事件和CPU使用率、内存使用量、GPU/NPU利用率、温度、显存使用量、功耗等资源状态监控,支持用户自定义查询时间窗口和数据刷新频率;

      用户可基于公共镜像、自定义镜像等创建模型训练;支持设置模型训练的权限为个人私有、团队共享或公共共享;支持查看历史训练任务的训练参数和资源信息;

      支持设置训练任务重启,包括重启次数、重启策略等;支持挂载训练数据、模型到训练任务中;支持自定义训练结果输出路径;

      支持基于历史训练任务快速创建模型训练;支持将训练任务保存为训练模版,并为模版设置权限;支持基于模版创建训练任务,并自定义启动命令及启动参数。

      容器镜像与容器仓库

      容器镜像

      平台提供容器实例、模型训练、推理服务等基础镜像;用户可根据需求选择基础镜像或自定义镜像;可以根据镜像名或镜像标签进行检索;

      支持设置容器镜像的镜像用途、启动命令、工作目录、镜像说明、环境变量,用户选择容器镜像后会自动填充对应预设启动命令和环境变量;支持设置容器镜像的权限为个人私有、团队共享或公共共享;

      支持根据Dockerfile在线构建自定义镜像、支持将运行中的容器实例保存为镜像并上传到镜像仓库中。

      镜像仓库

      平台集成私有化镜像仓库,可进行镜像的导入、导出;用户可以从私有化镜像仓库中申请配额;


      支持添加公共镜像仓库到平台中,支持用户从公共镜像仓库中下载镜像,并为镜像设置启动命令、环境变量等;

      资源管理调度

      纳管

      平台支持通过广域网纳管多可用区多集群,支持通过局域网纳管本地集群,支持纳管多个计算集群和存储集群;支持设置计算集群名称、区域名称、区域别名,支持设置在线、离线状态,支持按计算集群分别配置计算集群的流量入口、集群专用镜像库等信息;可查看集群内的节点列表、各节点的CPU、内存、GPU/NPUpod资源总量、可分配资源、IP地址等信息;支持查看和编辑节点的标签;

      支持纳管多个存储集群:支持纳管Ceph文件系统、本地硬盘等多种存储集群;通过配置存储集群的区域与计算机群关联,确保计算机群使用本地的存储集群。

      调度

      支持将计算节点划分为一个或多个资源组供用户使用:管理员可创建一个或多个资源组,每个资源组可包含若干节点,从而划分计算节点资源;

      支持配置可用的资源规格:管理员可针对每个计算机群创建和管理用户可用的资源规格,设置GPU/NPU卡数、CPU核数、内存大小、vGPU数量、vGPU显存大小等规格信息;

      支持基于资源队列的资源调度:平台管理员可创建一个或多个资源队列,作为用户请求资源的对象;资源队列可设置资源组亲和性,支持配置对资源组内节点的亲和性和反亲和性(必须调度、优先调度);资源队列可配置不同的调度优先级和权重,以确定多队列抢占资源时调度的策略;资源队列可配置 GPU/NPUCPU、内存及其他自定义资源的限额;平台管理员可通过配置各项目可用的资源队列,实现面相项目的资源配额管理;

      支持域管理员创建专属资源:域管理员可申请专属资源供域内项目和用户使用;域管理员可对域内的专属节点资源配置自用的资源组、资源规格、资源队列,实现资源调度策略的设定;

      支持存储配额管理:管理员可以管理各域、各项目、各用户可用的存储空间大小。

      监控

      支持全平台资源监控:管理员可以查看平台内的域、用户、项目、计算机群、存储集群、计算节点、资源队列、资源组、资源规格的数量,可以查看工作负载的列表、消息队列的列表;管理员可以查看各项目、各用户对存储资源的占用情况;

      支持计算机群集群资源监控:管理员可以查看计算机群内的GPU使用率、GPU温度、显存使用率、系统负载、CPU利用率、内存利用率、业务网络收/发速率、IB网络收/发速率、存储集群收发速率、本地磁盘读写速率等资源状态监控;支持用户自定义查询时间窗口和数据刷新频率;

      支持工作负载查看:管理员可查看各项目对非专属资源和专属资源的占用以及各项目下容器实例、训练任务、推理服务的负载列表;域管理员可以查看各项目对专属资源的占用以及各项目下容器实例、训练任务、推理服务的负载列表;

      支持操作审计:可查看各用户在平台上的操作日志,能够查看各操作请求对应的资源、参数明细和响应明细。

      兼容性

      支持基于华为、天数等国产GPU卡的大模型推理加速;

      支持虚拟GPU卡(vGPU)的创建和使用,可按照计算能力或显存将GPU划分为不少于10vGPU供用户使用,提高GPU的利用率;支持基于MIGGPU卡拆分;

      用户与权限

      用户体系

      ▲ 支持多域(多租户),域具有独立的用户体系和权限体系,可管理域内项目和用户的资源配额、存储配额,可管理域内的专属资源;域下可创建和管理多个项目,通过项目对资源进行分配和管理;每个项目可加入多个用户、并配置每个用户的角色;支持(用户)组管理,可将组内用户统一加入指定项目、并指定角色;

      角色与权限

      ▲ 区分平台管理员、域管理员、普通用户三个层次的用户角色:平台管理员能够管理和分配整个平台的非专属资源;域管理员将本域的计算资源、存储资源、专属资源分配给域内的项目和用户,可申请域专属资源;普通用户可使用所属项目内的计算资源和存储资源;

      支持自定义权限和角色;自定义权限可配置具备该权限的用户对各功能模块的可访问性、对各功能模块数据的访问权限;自定义角色定义具备该角色的用户能够具有的权限列表;

      自定义平台标识

      具备平台标题、平台图标配置的功能,平台管理员可配置平台的标题和图标。

      计费

      计费配置

      提供计费套餐管理功能,管理员可配置不同算力规格的按量计费(即后付费方式)的价格、包年包月套餐的价格,并可配置存储和镜像库空间的价格;

      支持用户通过支付宝等线上支付渠道进行充值;支持虚拟充值,在后台管理系统上由运营人员进行充值;

      账单管理

      提供资源用量明细列表,供用户查看资源用量明细数据和对应消费;提供账单概览、账单详情,供用户查看月度账单相关信息;提供收支明细查看,供用户查看充值和消费的交易信息及详情。


      Shape1

      6 6