英伟达收购SchedMD以掌控Slurm开源调度系统,承诺维持其开源中立性并整合CUDA实现SM级GPU调度;升级企业支持体系,原生集成DGX Cloud,并扩展机密计算安全调度能力。
英伟达近期宣布收购ai软件公司schedmd,此举直接关联其slurm开源工作负载管理系统的控制权与演进路径。slurm作为全球超算中心广泛采用的调度系统,其深度适配英伟达最新硬件后,已成为生成式ai模型训练与推理的关键基础设施组件。以下是针对该收购事件所引发的生态影响与技术整合路径的解析:
本文运行环境:MacBook Pro M3 Max,macOS Sequoia
一、Slurm开源治理权的承接与延续
英伟达明确承诺维持Slurm的开源属性与厂商中立定位,确保其继续以自由分发形式供全球HPC及AI开发者使用。此举旨在巩固社区信任,避免因商业接管导致核心用户迁移或分支分裂。
1、英伟达已正式接管SchedMD全部Slurm代码仓库与CI/CD基础设施。
2、原Slurm维护团队核心成员整体转入英伟达HPC软件部门,保留技术决策席位。
3、未来所有Slurm主版本更新将同步发布于GitHub官方仓库,并标注“NVIDIA-supported”标识。
二、CUDA与Slurm的深度协同优化
通过将Slurm调度逻辑与CUDA运行时堆栈进行底层对齐,可实现GPU资源分配粒度从节点级细化至流处理器组(SM)级,显著提升多租户AI训练作业的隔离性与吞吐效率。
1、启用CUDA-aware Slurm插件,自动识别NCCL通信拓扑并绑定GPU实例。
2、在slurm.conf中配置GresType=gpu与GresFlags=cooperative参数,启用协作式GPU共享。
3、调用sbatch提交任务时,通过--gpus-per-task=2 --cpus-per-gpu=8精确声明异构资源配比。
三、企业级支持服务架构升级
英伟达将沿用SchedMD原有商业模式,即基础软件免费开源,营收来源于工程实施、定制化开发
与SLA保障服务。新架构下,支持响应等级按客户类型分级,覆盖从学术实验室到超大规模云服务商。
1、设立三级支持通道:社区论坛(免费)、NVIDIA Enterprise Support(年费订阅)、NVIDIA AI Infrastructure Concierge(专属客户经理+现场驻场)。
2、所有付费支持合同默认包含Slurm与CUDA版本兼容性矩阵验证服务。
3、面向CoreWeave等云合作伙伴,提供白标Slurm管理控制台集成SDK。
四、Slurm调度器与DGX Cloud的原生集成
DGX Cloud作为英伟达托管式AI基础设施平台,需将Slurm抽象为云原生服务接口。此次收购使Slurm可直接嵌入DGX Cloud的Kubernetes Operator中,实现AI作业从YAML定义到GPU物理调度的端到端自动化。
1、在DGX Cloud控制台启用“Slurm Mode”,自动部署高可用Slurm Controller集群。
2、用户通过kubectl apply -f job.yaml提交PyTorch DDP训练任务,Operator自动转换为srun指令并注入NCCL环境变量。
3、GPU利用率、显存占用、NVLink带宽等指标实时回传至DGX Cloud监控面板,与Prometheus无缝对接。
五、安全增强型调度策略扩展
针对多租户AI推理场景中日益突出的侧信道攻击风险,英伟达正基于Slurm底层框架开发硬件辅助隔离模块,利用NVIDIA Confidential Computing技术,在调度层强制实施GPU内存加密与执行上下文锁定。
1、启用slurm.conf中的ConfidentialCompute=yes参数,触发GPU可信执行环境(TEE)初始化。
2、所有srun启动的容器进程自动加载NVIDIA Driver 550+ Confidential Compute驱动模块。
3、调度器拒绝未签署Enclave签名的模型加载请求,错误码返回SLURM_ERROR_CONFIDENTIALITY_VIOLATION。
文章推荐更多>
- 1电脑键盘大小字母怎样换成中文 中文输入切换技巧
- 2mysql中!什么意思
- 3mysql总是安装不上是怎么回事
- 4笔记本的c盘和d盘是一个盘吗 解析物理分区的3个区别
- 5phpmyadmin怎么添加外键
- 6谷歌浏览器网页版入口官网 谷歌浏览器入口网页界面
- 7手机如何进入ao3官网 手机ao3链接入口官方
- 8oracle数据库如何查内存使用情况
- 9夸克怎么取消连续包月 连续包月取消方法
- 10谷歌浏览器如何添加插件 扩展程序安装指南
- 11oracle数据库误删怎么恢复
- 12谷歌浏览器在线打开网页 谷歌浏览器在线网站
- 13mysql怎么使用数据库命令
- 14安卓UC缓存视频保存到U盘
- 15亚马逊国际站官网入口 亚马逊amazon国际站官网首页入口
- 16wordpress要学php么
- 17夸克怎么免费追剧 轻松追剧的方法分享
- 18oracle数据库如何导入excel
- 19wordpress插件文件目录在哪
- 20mysql命令行在哪里
- 21discuz和wordpress区别
- 22wordpress前台如何删除文章
- 23ao3官方中文网页版访问入口 ao3官网中文版入口怎么进
- 24wordpress怎么发长文章
- 250x000000c5蓝屏解决 蓝屏代码0x000000c5的解决方法
- 26uc浏览器缓存的分割视频怎么导出
- 27电脑定时关机结合备份任务:数据安全与自动化维护方案
- 28navicat为什么连接不上
- 29夸克怎么查询浏览记录 夸克历史记录查看方式
- 30wordpress怎么增加域名
