Torch-MUSA v2.7.0上线!!
时间:2025-11-28浏览次数:
摩尔线程 Torch-MUSA v2.7.0 发布 一月双更强化国产 AI 算力底座近日,国产 GPU 厂商摩尔线程正式推出 PyTorch 深度学习框架的 M
近日,国产 GPU 厂商摩尔线程正式推出 PyTorch 深度学习框架的 MUSA 扩展库新版本 ——Torch-MUSA v2.7.0。该版本在功能集成、性能优化与硬件适配三大维度实现关键突破,而短短一个月内连续完成 v2.5.0 与 v2.7.0 两次重大更新,更凸显了摩尔线程在 MUSA 生态建设上的高强度投入与快速迭代实力。
Torch-MUSA v2.7.0 的核心亮点在于功能与性能的同步跃升。新版本将专属支持的算子总数扩充至 1050 个以上,全面覆盖大模型训练与推理的核心计算需求,为复杂 AI 任务提供坚实底层支撑。性能优化方面,深度集成 muSolver 计算库,显著提升线性代数运算效率与数值稳定性;升级的 MUSA Graph 技术可将多内核计算整合为单次 CPU 调度,大幅降低启动开销;配合可插拔内存统一分配器,有效缓解内存碎片化问题,降低训练峰值内存占用。
硬件兼容性进一步拓宽,新版本完美适配 MUSA SDK 4.2.0 及以上版本,全面支持摩尔线程 MTT S4000 等新一代智算加速卡,同时兼容 x86、ARM 等多架构主机与麒麟、Ubuntu 等主流操作系统,覆盖从桌面工作站到数据中心的全场景算力需求。
此次 v2.7.0 发布距 v2.5.0 更新仅一个月,形成密集迭代节奏。此前推出的 v2.5.0 已实现关键功能跨越,不仅完成 musolver、mufft 库的深度集成,还新增统一内存管理支持,通过环境变量配置即可实现 CPU 与 GPU 共享内存空间,避免冗余显存分配。
从技术演进来看,Torch-MUSA 系列版本已构建完整能力体系:支持 torch.compile 原生接口与 Triton-MUSA 后端,实现模型编译加速;无需显式导入即可自动加载,简化开发者集成流程;兼容 FSDP2、DeepSpeed 等主流分布式训练框架,适配 LLaMA、ChatGLM 等 600 余种大模型,迁移成本较传统方案降低 90% 以上。
作为 MUSA 生态的核心组成部分,Torch-MUSA 通过 “兼容主流框架 + 降低迁移门槛” 的双路径,加速国产 GPU 的产业化落地。其与 PyTorch API 的一致性设计,配合 MUSIFY 代码迁移工具,让开发者无需大幅重构代码即可实现 CUDA 项目向 MUSA 平台迁移,为政务、金融、能源等信创领域提供安全可控的替代方案。
目前,依托 Torch-MUSA 与 MUSA SDK 构建的生态体系,已成功支撑夸娥智算集群等重大项目,实现稠密模型集群训练 MFU 峰值达 68.3%,并完成冷冻电镜关键软件 RELION5 等高端应用的迁移适配。此次快速迭代不仅完善了自身生态能力,更推动国产 GPU 从 “技术可用” 向 “产业好用” 加速迈进。
摩尔线程表示,未来将持续聚焦算子丰富度与性能优化,计划进一步扩展多模态模型支持,推动 MUSA 生态在 AI 训练推理、科学计算等领域的深度渗透。