摩尔线程 Torch-MUSA v2.7.0 发布一月双更强化国产 AI 算力底座

近日，国产 GPU 厂商摩尔线程正式推出 PyTorch 深度学习框架的 MUSA 扩展库新版本 ——Torch-MUSA v2.7.0。该版本在功能集成、性能优化与硬件适配三大维度实现关键突破，而短短一个月内连续完成 v2.5.0 与 v2.7.0 两次重大更新，更凸显了摩尔线程在 MUSA 生态建设上的高强度投入与快速迭代实力。

核心升级：算子破千 + 性能优化双突破

Torch-MUSA v2.7.0 的核心亮点在于功能与性能的同步跃升。新版本将专属支持的算子总数扩充至 1050 个以上，全面覆盖大模型训练与推理的核心计算需求，为复杂 AI 任务提供坚实底层支撑。性能优化方面，深度集成 muSolver 计算库，显著提升线性代数运算效率与数值稳定性；升级的 MUSA Graph 技术可将多内核计算整合为单次 CPU 调度，大幅降低启动开销；配合可插拔内存统一分配器，有效缓解内存碎片化问题，降低训练峰值内存占用。

硬件兼容性进一步拓宽，新版本完美适配 MUSA SDK 4.2.0 及以上版本，全面支持摩尔线程 MTT S4000 等新一代智算加速卡，同时兼容 x86、ARM 等多架构主机与麒麟、Ubuntu 等主流操作系统，覆盖从桌面工作站到数据中心的全场景算力需求。

一月双更：生态迭代速度领跑国产赛道

此次 v2.7.0 发布距 v2.5.0 更新仅一个月，形成密集迭代节奏。此前推出的 v2.5.0 已实现关键功能跨越，不仅完成 musolver、mufft 库的深度集成，还新增统一内存管理支持，通过环境变量配置即可实现 CPU 与 GPU 共享内存空间，避免冗余显存分配。

从技术演进来看，Torch-MUSA 系列版本已构建完整能力体系：支持 torch.compile 原生接口与 Triton-MUSA 后端，实现模型编译加速；无需显式导入即可自动加载，简化开发者集成流程；兼容 FSDP2、DeepSpeed 等主流分布式训练框架，适配 LLaMA、ChatGLM 等 600 余种大模型，迁移成本较传统方案降低 90% 以上。

生态价值：夯实国产 AI 软硬件协同底座

作为 MUSA 生态的核心组成部分，Torch-MUSA 通过 “兼容主流框架 + 降低迁移门槛” 的双路径，加速国产 GPU 的产业化落地。其与 PyTorch API 的一致性设计，配合 MUSIFY 代码迁移工具，让开发者无需大幅重构代码即可实现 CUDA 项目向 MUSA 平台迁移，为政务、金融、能源等信创领域提供安全可控的替代方案。

目前，依托 Torch-MUSA 与 MUSA SDK 构建的生态体系，已成功支撑夸娥智算集群等重大项目，实现稠密模型集群训练 MFU 峰值达 68.3%，并完成冷冻电镜关键软件 RELION5 等高端应用的迁移适配。此次快速迭代不仅完善了自身生态能力，更推动国产 GPU 从 “技术可用” 向 “产业好用” 加速迈进。

摩尔线程表示，未来将持续聚焦算子丰富度与性能优化，计划进一步扩展多模态模型支持，推动 MUSA 生态在 AI 训练推理、科学计算等领域的深度渗透。

上一篇：全国首例小米汽车 “未交车催收尾款” 案宣判：小米败诉！

下一篇：在魔都上海，机器人也要上班？擎天租？

地址：中国上海市闵行区光华路598号2幢3、4层邮箱：andy.wang@musk-china.cn 电话：(021) 5220 9661

摩尔线程 Torch-MUSA v2.7.0 发布 一月双更强化国产 AI 算力底座

核心升级：算子破千 + 性能优化双突破

一月双更：生态迭代速度领跑国产赛道

生态价值：夯实国产 AI 软硬件协同底座

摩尔线程 Torch-MUSA v2.7.0 发布一月双更强化国产 AI 算力底座