新疆联合智算科技有限公司

联泰集群 LtAI 人工智能加速平台软件——技术白皮书

联泰集群 LtAI 人工智能加速平台软件 - 技术白皮书 (V2.0.1)

联泰集群（北京）科技有限责任公司

2025年9月

1. 引言

随着人工智能和大型模型技术的飞速发展，您的企业或科研机构正面临巨大的工程化挑战。这些挑战包括底层算力复杂、资源利用率低以及开发运维链条割裂等问题。作为一家深耕计算领域的高新技术企业，联泰集群致力于为您提供卓越的计算力。我们的LtAI 人工智能加速平台正是为了解决这些痛点而生。

LtAI 不仅是一个简单的工具集，更是一个完整的生态系统。它通过高效的算力资源调度、系统化的大模型优化、敏捷的应用开发与发布以及异构算力支持等核心能力，为您提供从底层异构算力到顶层模型应用的一体化解决方案。我们的目标是打通整个开发链路，大幅提升大模型开发、训练、推理及部署全生命周期的效率，最终赋能您的企业智能化升级。

LtAI 平台旨在成为一款高效、敏捷、开放、易用的 AI 基础设施平台软件，帮助您屏蔽复杂的工程化工作，让您能够专注于业务和创新本身。

2. 术语和缩略语

· 人工智能 (AI)：研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。

· 机器学习 (ML)：一种人工智能技术，旨在研究计算机模拟人类学习活动，以获取知识和技能，并改善系统性能。

· 大模型：采用深度学习等先进技术构建的神经网络模型，通常包含数百万至上万亿的参数。其核心优势在于强大的泛化能力和表征能力。

· IaaS：基础架构即服务，通过互联网提供虚拟化主机、存储、网络等 IT 基础设施云资源。

· K8S：Kubernetes，一个容器编排引擎，用于对容器化应用进行自动化部署、扩缩和管理。

· 算力云：基于云计算技术，专门为用户提供强大计算能力的服务形式。

· 分布式文件系统 (DFS)：一种特殊的文件系统管理方式，使存储资源能够跨越多个网络连接的节点，为用户提供统一的逻辑文件系统结构。

· IB 网络：InfiniBand 网络，一种高性能计算机网络通信标准，提供极高的数据传输带宽和极低的延迟。

· RoCE 网络：RDMA over Converged Ethernet 网络，允许在以太网上实现远程直接内存访问（RDMA），显著降低数据传输延迟并提高吞吐量。

· RBI 技术：远程浏览器隔离技术，将网页浏览活动转移到远程服务器上执行，以阻止潜在的恶意代码或攻击。

3. 核心价值：为您带来的改变

LtAI 平台的设计初衷是为您提供高效、易用的算力服务，解决您在算力应用中遇到的复杂性问题。

· 一站式 AI 模型全流程支持： LtAI 平台为您提供一站式服务，涵盖数据管理、模型训练、部署和应用的全生命周期。平台将繁琐的底层环境搭建、驱动配置和参数调整等工作自动化，让您能把精力集中在开发逻辑本身，大幅提升开发效率并降低技术门槛。

· 面向 AI 的系统性优化： 平台基于多项技术，为您提供开箱即用的高速模型训练和推理框架。

· 统一纳管您的跨区域算力： 无论您的计算资源分散在不同区域还是不同机房，LtAI 都能通过广域网或局域网将它们统一管理起来。

· 灵活强大的资源管理调度： 平台通过资源分组、任务队列和资源配额机制，可以满足您在单用户、多用户、多团队等不同场景下的资源管理和调度需求。

· 国产异构算力融合应用： LtAI 支持国产芯片和通用芯片，并在应用框架、容器、驱动等各个层次进行了适配和优化，为您在选择底层算力设备时提供了更大的灵活性。

· 可视化资源管控： 您可以从多个层次和角度，直观地监控和管理算力资源，并接收告警通知。

4. 核心功能特性：让您的工作更轻松

4.1 快速构建人工智能模型与算法开发与应用环境

· 开发环境： LtAI 平台提供了在线开发容器实例功能，让您能够快速构建一体化的人工智能模型与算法开发环境。您只需通过简单的几步操作，即可创建自己的专属开发环境，其中包含了所需的计算资源、分布式存储和开发软件。您可以从 Web 界面、Web SSH 或 SSH 客户端访问该环境，方便地进行开发和调试。您还可以将配置好的环境保存为镜像，作为后续训练或推理的基础。

· 模型训练： 平台提供了全面的模型训练任务管理功能，让您可以方便地创建、运行和管理模型训练任务。我们支持多种主流框架和多机多卡训练模式。在训练过程中，您可以实时查看运行日志、事件，并监控 GPU、CPU、显存等资源使用情况。此外，平台还提供了训练模板功能，方便您保存和复用训练配置，简化反复调试的过程。

· 模型推理服务部署： 为了解决模型从训练到应用落地的效率瓶颈，LtAI 平台提供了轻量化、高可用的推理服务部署功能。通过可视化配置界面，您可以灵活设定服务参数，例如单模型多实例部署以满足高并发需求。

· 人工智能应用构建： LtAI 平台提供了敏捷式的 AI 应用构建能力。平台集成了向量知识库、提示词引擎、拖拽式流程编排等全流程工具链，让您可以快速构建多种人工智能应用。这不仅降低了开发门槛，还保留了代码级扩展能力，兼顾易用性与灵活性。

4.2 高效资源管理与调度

· 数据集与存储空间管理： 平台提供基于存储磁盘的数据集与存储空间管理功能。您可以创建数据集和存储空间，并方便地将其挂载到容器实例、训练任务和推理服务上。

· 灵活完善的资源管理与配额： 针对算力资源稀缺的现状，LtAI 平台基于资源组划分和资源队列技术，构建了完善的资源调度和配额管理功能，确保了算力资源的合理分配和高效利用。您可以将整体算力划分为多个资源组，并创建多个资源队列，每个队列可以配置不同的调度优先级和资源限额，以满足您的不同项目需求。

· 跨区域多集群统一纳管与调度： LtAI 平台支持跨区域多集群算力统一纳管与调度功能，打破了算力资源的地域限制。您可以在一个管理体系中集中管理不同区域、不同机房的算力集群和存储集群，大大降低了运维复杂度。

· 多层次多角度资源监控： 平台在全局、集群、域、用户、工作负载等多个层级提供了全面的资源监控。您可以实时监控 GPU 利用率、CPU 使用率、内存使用量、网络吞吐等多种指标，有效提升您的运维和管理效率。

4.3 多级用户体系与权限管理

LtAI 平台为您提供了域-项目-用户的多级用户体系。

· 域：是平台中最大的逻辑单元，代表一个独立的资源空间或组织边界。

· 项目： 是平台进行资源管理的单位，您可以将资源集合绑定到项目中，并让多个用户共同使用和共享数据。

· 用户： 对应于使用平台的个人，拥有独立的账号来使用或管理资源和数据。

平台还支持自定义角色权限，让您可以灵活配置用户对功能和数据的访问权限。

5. 平台核心架构

5.1 架构设计

LtAI 人工智能加速平台以容器为单位为您提供资源和功能。其核心设计原则包括：云原生、异构兼容、解耦与开放以及安全为先。

平台功能结构分为四个层次：

· 基础设施层： 承载平台的硬件资源，负责整合异构硬件资源并提供标准化接入能力。

· 核心能力层： 平台的“业务中枢”，专注于封装 AI 开发全流程的核心能力。

· 运维与管控层： 平台的“运营保障层”，面向 IT 运维人员和企业管理者，提供平台安全、资源管控和成本优化能力。

· 应用与工具层： 平台的“功能交互层”，提供贴近 AI 开发者和业务人员的可视化工具，降低技术使用门槛。

5.2 部署架构

LtAI 平台支持单个或多个智算中心的联合部署，为您提供统一的资源访问入口和算力管理调度。在部署上，平台分为控制面集群和用户面集群。控制面集群负责平台主要功能模块的运行，而用户面集群用于集中纳管各机房的算力节点。

6. 典型应用场景：为您解决实际问题

6.1 院校/科研院所的服务器集群管理

· 您面临的挑战： 您所在的院校或科研院所面临着资源抢占、运维人力不足以及多机多卡训练环境配置复杂等挑战。

· 我们为您提供的方案： 平台提供“资源有序调度 + 轻量化运维 + 环境一键配置”的应用模式。我们为您搭建专属的统一算力池，支持按团队和项目创建多级资源分组，并提供资源预约功能，避免资源抢占。

· 您将获得的价值： 通过智能调度，GPU 资源利用率可提升至 80%以上，核心项目任务等待时间缩短 70% 。自动化运维工具将故障排查时间从数天缩短至数小时，减少了 90% 的运维人力投入。

6.2 大型企业多团队 AI 研发协同

· 您面临的挑战： 您的企业内部多个 AI 研发团队面临着算力资源分散、环境版本不统一以及缺乏成本核算机制等问题。

· 我们为您提供的方案： 平台采用“统一算力池 + 多租户隔离”的模式。我们将您分散的硬件资源整合为企业级统一算力池。为每个研发团队创建独立租户，并设置专属资源配额。

· 您将获得的价值： 通过统一算力池和智能调度，GPU 资源利用率可提升至 70%以上。标准化环境能节省团队 80% 的环境配置时间，显著优化研发效率。

6.3 中小企业 AI 化转型

· 您面临的挑战： 您的中小企业在 AI 化转型中，可能面临资金、技术、人才不足的困境。

· 我们为您提供的方案： 平台提供“快速应用构建平台 + 场景化工具链”的低成本、低门槛应用模式。我们为常见 AI 场景预置了标准化工具模板，您只需上传数据，即可一键启动任务。平台采用可视化低代码操作，让您无需编写复杂代码，即可完成从数据上传到模型部署的全流程。

· 您将获得的价值： 标准化工具模板和全流程可视化操作，将您的 AI 应用上线周期从 3-6 个月压缩至 1-2 周，让您快速实现 AI 价值。平台彻底打破了技术门槛，解决了您“缺技术、缺人才”的核心痛点。

6.4 智算算力中心运营

· 您面临的挑战： 作为智算算力中心的运营方，您面临着用户需求多样化、资源管控不精细以及数据安全难以保障的挑战。

· 我们为您提供的方案： 平台提供“多维度资源调度 + 精细化管控 + 安全隔离保障”的应用模式。我们构建了统一算力资源池，并按用户需求类型划分调度策略，精准匹配不同用户的需求。

· 您将获得的价值： 运营效率与收益双提升，通过精准调度和闲置资源回收，单位算力收益增加。用户满意度显著提高，多样化需求适配和自助服务减少了用户等待时间。

7. 技术规格

LtAI 平台的详细技术规格如下表所示：

功能分类	功能模块	技术规格
数据集与存储	数据集	支持公共数据集、团队共享数据集、用户私有数据集；
		支持数据集发布和版本管理；
		支持查看数据集文件，支持数据集文件的上传、下载、删除等操作；
		支持从modelscope、huggingface等第三方平台直接导入数据集。
	存储磁盘	支持用户私有存储空间，可上传下载用户个人数据，用于模型的开发和训练。
模型开发	模型开发	提供Jupyter Notebook、VSCode等主流开发环境；支持将数据集和存储空间挂载到开发环境，支持用户自定义挂载路径，支持选择只读或读写模式；
		集成pytorch，TensorFlow，MindSpore等多种深度学习框架容器镜像；用户可基于公共镜像、自定义镜像创建开发容器；支持设置容器实例的工作目录、启动命令、启动参数、环境变量和端口映射；支持设置容器实例的权限为个人私有、团队共享或公共共享；
		提供基于容器的模型开发环境，支持容器实例的创建、停止、启动、删除等管理功能，支持直接访问容器实例的web服务，支持以第三方ssh客户端和webshell方式登陆容器实例控制台，支持容器实例启动后设置容器实例的端口映射，支持将容器实例保存为镜像；
		支持查看容器实例运行日志、事件和CPU使用率、内存使用量、GPU/NPU利用率、温度、显存使用量、功耗等资源状态监控，支持用户自定义查询时间窗口和数据刷新频率。
	模型管理	支持模型管理，创建模型支持设置模型名称、模型描述、模型文档，支持选择模型的存储磁盘，设置模型路径和共享权限，支持设置为个人私有、团队共享和公共共享；
	模型管理	支持模型的编辑、发布、导入和删除，支持从modelscope、huggingface等第三方平台直接导入模型文件；支持为模型添加标签，支持模型的版本管理，记录模型的创建和更新时间。
	模型推理	通过Web界面快速创建推理服务，为用户提供可调的用API接口，记录创建和更新时间，支持推理服务的启动、停止、编辑和删除；支持调整副本数量；
		支持设置推理服务的名称，选择有状态服务或无状态服务，支持设置服务权限为个人私有、团队共享或公共共享；
		支持将数据集和存储空间挂载到推理服务，支持用户自定义挂载路径，支持选择只读或读写模式；用户可基于公共镜像、自定义镜像创建推理服务；支持设置推理服务的工作目录、启动命令、启动参数、环境变量、到期时间和IP白名单；支持选择服务流量入口节点。
	模型训练	支持单机多卡、多机多卡分布式并行训练功能；能够在界面查看训练日志数据，能够通过Web SSH访问训练容器实例；
		平台集成TensorFlow、pytorch、MPI、mindspore等多种计算框架，支持Master/Worker、PS/Worker、Launcher/Worker、Scheduler/Server/Worker多种分布式训练模式；
		支持查看模型训练的运行日志、事件和CPU使用率、内存使用量、GPU/NPU利用率、温度、显存使用量、功耗等资源状态监控，支持用户自定义查询时间窗口和数据刷新频率；
		用户可基于公共镜像、自定义镜像等创建模型训练；支持设置模型训练的权限为个人私有、团队共享或公共共享；支持查看历史训练任务的训练参数和资源信息；
		支持设置训练任务重启，包括重启次数、重启策略等；支持挂载训练数据、模型到训练任务中；支持自定义训练结果输出路径；
		支持基于历史训练任务快速创建模型训练；支持将训练任务保存为训练模版，并为模版设置权限；支持基于模版创建训练任务，并自定义启动命令及启动参数。
容器镜像与容器仓库	容器镜像	平台提供容器实例、模型训练、推理服务等基础镜像；用户可根据需求选择基础镜像或自定义镜像；可以根据镜像名或镜像标签进行检索；
		支持设置容器镜像的镜像用途、启动命令、工作目录、镜像说明、环境变量，用户选择容器镜像后会自动填充对应预设启动命令和环境变量；支持设置容器镜像的权限为个人私有、团队共享或公共共享；
		支持根据Dockerfile在线构建自定义镜像、支持将运行中的容器实例保存为镜像并上传到镜像仓库中。
	镜像仓库	平台集成私有化镜像仓库，可进行镜像的导入、导出；用户可以从私有化镜像仓库中申请配额；
		支持添加公共镜像仓库到平台中，支持用户从公共镜像仓库中下载镜像，并为镜像设置启动命令、环境变量等；
资源管理调度	纳管	平台支持通过广域网纳管多可用区多集群，支持通过局域网纳管本地集群，支持纳管多个计算集群和存储集群；支持设置计算集群名称、区域名称、区域别名，支持设置在线、离线状态，支持按计算集群分别配置计算集群的流量入口、集群专用镜像库等信息；可查看集群内的节点列表、各节点的CPU、内存、GPU/NPU、pod资源总量、可分配资源、IP地址等信息；支持查看和编辑节点的标签；
	纳管	支持纳管多个存储集群：支持纳管Ceph文件系统、本地硬盘等多种存储集群；通过配置存储集群的区域与计算机群关联，确保计算机群使用本地的存储集群。
	调度	支持将计算节点划分为一个或多个资源组供用户使用：管理员可创建一个或多个资源组，每个资源组可包含若干节点，从而划分计算节点资源；
		支持配置可用的资源规格：管理员可针对每个计算机群创建和管理用户可用的资源规格，设置GPU/NPU卡数、CPU核数、内存大小、vGPU数量、vGPU显存大小等规格信息；
		支持基于资源队列的资源调度：平台管理员可创建一个或多个资源队列，作为用户请求资源的对象；资源队列可设置资源组亲和性，支持配置对资源组内节点的亲和性和反亲和性（必须调度、优先调度）；资源队列可配置不同的调度优先级和权重，以确定多队列抢占资源时调度的策略；资源队列可配置 GPU/NPU、CPU、内存及其他自定义资源的限额；平台管理员可通过配置各项目可用的资源队列，实现面相项目的资源配额管理；
		支持域管理员创建专属资源：域管理员可申请专属资源供域内项目和用户使用；域管理员可对域内的专属节点资源配置自用的资源组、资源规格、资源队列，实现资源调度策略的设定；
		支持存储配额管理：管理员可以管理各域、各项目、各用户可用的存储空间大小。
	监控	支持全平台资源监控：管理员可以查看平台内的域、用户、项目、计算机群、存储集群、计算节点、资源队列、资源组、资源规格的数量，可以查看工作负载的列表、消息队列的列表；管理员可以查看各项目、各用户对存储资源的占用情况；
		支持计算机群集群资源监控：管理员可以查看计算机群内的GPU使用率、GPU温度、显存使用率、系统负载、CPU利用率、内存利用率、业务网络收/发速率、IB网络收/发速率、存储集群收发速率、本地磁盘读写速率等资源状态监控；支持用户自定义查询时间窗口和数据刷新频率；
		支持工作负载查看：管理员可查看各项目对非专属资源和专属资源的占用以及各项目下容器实例、训练任务、推理服务的负载列表；域管理员可以查看各项目对专属资源的占用以及各项目下容器实例、训练任务、推理服务的负载列表；
		支持操作审计：可查看各用户在平台上的操作日志，能够查看各操作请求对应的资源、参数明细和响应明细。
	兼容性	支持基于华为、天数等国产GPU卡的大模型推理加速；
	兼容性	支持虚拟GPU卡（vGPU）的创建和使用，可按照计算能力或显存将GPU划分为不少于10个vGPU供用户使用，提高GPU的利用率；支持基于MIG的GPU卡拆分；
用户与权限	用户体系	▲ 支持多域（多租户），域具有独立的用户体系和权限体系，可管理域内项目和用户的资源配额、存储配额，可管理域内的专属资源；域下可创建和管理多个项目，通过项目对资源进行分配和管理；每个项目可加入多个用户、并配置每个用户的角色；支持（用户）组管理，可将组内用户统一加入指定项目、并指定角色；
	角色与权限	▲ 区分平台管理员、域管理员、普通用户三个层次的用户角色：平台管理员能够管理和分配整个平台的非专属资源；域管理员将本域的计算资源、存储资源、专属资源分配给域内的项目和用户，可申请域专属资源；普通用户可使用所属项目内的计算资源和存储资源；
	角色与权限	支持自定义权限和角色；自定义权限可配置具备该权限的用户对各功能模块的可访问性、对各功能模块数据的访问权限；自定义角色定义具备该角色的用户能够具有的权限列表；
	自定义平台标识	具备平台标题、平台图标配置的功能，平台管理员可配置平台的标题和图标。
计费	计费配置	▲提供计费套餐管理功能，管理员可配置不同算力规格的按量计费（即后付费方式）的价格、包年包月套餐的价格，并可配置存储和镜像库空间的价格；
	计费配置	▲支持用户通过支付宝等线上支付渠道进行充值；支持虚拟充值，在后台管理系统上由运营人员进行充值；
	账单管理	▲提供资源用量明细列表，供用户查看资源用量明细数据和对应消费；提供账单概览、账单详情，供用户查看月度账单相关信息；提供收支明细查看，供用户查看充值和消费的交易信息及详情。