一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

前言

OpenAI 内部快因为 GPU 抢翻天了!

总裁直言分配起来 “痛苦又煎熬 ”,过去一年光算力就花了 70 亿 ,其中 50 亿都砸在了大模型训练上 。

就在各团队争得不可开交时 ,微软突然甩出大招,上线了全球首个 4600 多块 GPU 的超算,专门供 OpenAI 使用 。

这台 “算力巨兽 ” 真能解决问题吗?据说以前要数周的训练 ,现在几天就能完成。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

内部抢破头

说实话,OpenAI 里抢 GPU 的场面 ,比咱们小区大妈抢特价菜还激烈。

Greg 在播客里举过个例子,有回早上刚到公司,研发团队的负责人就堵在办公室门口 ,手里攥着厚厚一叠项目方案,就为了争取下季度的算力配额;

下午应用产品团队又拿着用户增长数据来找,说要是算力不够 ,新功能就没法按时上线 。

他苦笑说,每个团队的点子都特别好,拒绝哪个都心疼 ,可 GPU 就那么多 ,手心手背都是肉,怎么分都难。

为啥大家对 GPU 这么执着?看看数据就知道了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

去年 OpenAI 花的 70 亿算力经费里 ,50 亿都用在了大模型研发上,这可不是小数目 —— 平均到每天,光研发这块就得花近 1400 万美元在算力上 。

而推理计算 ,也就是咱们平时用 ChatGPT 这类工具时消耗的算力,才花了 20 亿。要知道,训练一个万亿参数的大模型 ,得处理海量的数据,每一轮迭代都要让 GPU 反复运算,就像工厂批量生产零件一样 ,少一个机器都得拖慢进度。

之前有内部员工透露,有次为了赶一个模型的训练节点,团队连续一周盯着 GPU 状态 ,就怕设备出问题耽误事儿 。

为了让分配更公平 ,OpenAI 特意搭了套三层机制。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

最顶层是奥特曼和 Fidji Simo 带队的领导班子,他们会根据公司下阶段的重点定方向 —— 比如要是计划加强多模态模型研发 ,就会给研究团队多拨点算力;要是应用产品要推新功能,也会适当倾斜。

中间层是研究团队内部,首席科学家和各个研究负责人会坐在一起开会 ,根据项目的紧急程度和重要性,给下面的小团队分资源 。

最底层是 Kevin Park 带的小团队,一共就几个人 ,却管着全公司 GPU 的 “调度权”—— 哪个项目结束了,他们得第一时间把 GPU 收回来;哪个新项目启动,又得赶紧把设备调过去 ,有时候一天要调整好几次。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

即便这样 ,还是有人会来 “求情” ,毕竟算力直接关系到项目能不能推进,谁都不想落后。

OpenAI 的首席产品官 Kevin Weil 就说过,每次新的 GPU 一到货 ,不用通知,各团队就主动来问,当天就能把设备装起来用 ,根本留不住 。

微软送猛货

就在 OpenAI 为算力愁得睡不着觉的时候,老搭档微软还真就送来 “及时雨 ” 了 。

今年早些时候,微软其实就推出过 GB200 的虚拟机给 OpenAI 用 ,当时就帮着解决了不少训练难题。

这次纳德拉直接在公开场合官宣,全球第一台专门为 OpenAI 定制的超算正式上线,光里面的 GB300 NVL72 设备就有 4600 多个 ,而且微软已经计划好了,未来要把这超算的 GPU 数量扩展到 10 万块 —— 这规模,想想都觉得震撼。

英伟达作为芯片领域的巨头 ,也忍不住夸这台超算 ,说它简直是 “算力巨兽” 。以前 OpenAI 训练一个万亿参数的大模型,得从头到尾跑好几周,中间还得担心算力不够中断;现在有了这台超算 ,几天时间就能完成训练,效率直接翻了好几倍。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

这可不是吹的 ,咱们来看看这超算的 “硬件配置” 就知道了 —— 它是按机架来设计的,每个机架里都装着 18 个虚拟机,每个虚拟机又搭配了 72 个 Blackwell Ultra GPU 和 36 个 Grace CPU ,相当于每个机架都有一整套 “超强计算组合 ”。

除此之外,每个机架还配了 37TB 的高速内存,咱们平时家用电脑的硬盘一般是 1TB、2TB ,37TB 就相当于 30 多块普通硬盘叠起来的容量,数据存在里面,调取速度比普通内存快太多了 。

而且微软为了让这超算发挥最大作用 ,几乎把能优化的地方都优化了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

先说数据传输,机架内部用了 NVLink 和 NVSwitch 技术,每秒能传输 130TB 的数据 —— 打个比方 ,要是传一部 10GB 的电影,一秒钟能传 13000 多部,根本不会出现数据 “堵车” 的情况。

跨机架传输也不含糊 ,用的是当今最快的 Quantum-X800 InfiniBand 网络,每块 GPU 的带宽能达到 800Gb/s,就算超算扩展到几万个 GPU ,数据在不同机架间传也照样快 。

散热也是个大问题,这么多高性能设备堆在一起,发热量肯定不小。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

微软专门设计了 “独立散热器单元”,每个设备都有针对性的散热方案,再配合整个数据中心的冷却系统 ,既能保证设备一直处于稳定的温度 ,又不会像传统散热那样浪费太多水。

这一点也很重要,毕竟大型数据中心的能耗和水资源消耗一直是个难题,微软这次算是考虑得很周全了 。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

软件方面更是没落下,微软重新优化了存储 、编排和调度的软件栈。

简单说,就是让软件能 “指挥 ” 硬件高效工作 ,比如在训练大模型时,软件能合理分配每个 GPU 的任务,不让有的设备闲着 ,也不让有的设备超负荷;在处理长上下文对话时,软件能快速调用高速内存里的数据,让 AI 的响应速度更快。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

有内部测试说,用这台超算跑多模态模型,生成一张复杂的图片或者理解一篇上万字的文档 ,比以前快了近一半 。

结语

OpenAI 内部抢 GPU 的 “痛苦与煎熬” ,其实就是当下 AI 行业竞争的一个缩影 。

70 亿美元砸在算力上还不够用,4600 多个 GPU 的超算刚上线就计划扩到 10 万块,这些数据都在告诉咱们:算力已经成了 AI 发展的 “硬通货”。

不光是 OpenAI ,Meta 的小扎也说要把 “人均算力 ” 当成核心优势,谷歌在加码 TPU 芯片,亚马逊云服务也在偷偷建自己的 AI 超算 ,整个行业都在算力上 “内卷”。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

微软这次给 OpenAI 送超算,表面上是帮老搭档解燃眉之急 ,实际上是在 AI 赛道上 “加码下注”—— 谁都知道,能支撑起更强大的大模型,谁就能在未来的 AI 竞争中占得先机 。

对咱们普通用户来说 ,算力提升也不是跟自己没关系,以后用 AI 工具写文章 、做设计、处理工作,响应会更快 ,能做的事儿也会更多。

说到底 ,这场算力争夺战,早就不是单个公司的事儿了,而是整个科技行业的 “军备竞赛 ”。

现在 4600+GPU 的超算已经落地 ,10 万块 GPU 的目标也提上了日程,未来还会有更强大的算力设备出现 。谁能在这场竞赛中笑到最后?答案或许就藏在那些不断增加的 GPU 数量和越来越快的训练速度里。

本文来自作者[神都未醒]投稿,不代表视听号立场,如若转载,请注明出处:https://m.stddy.com/youxi/202510-52031.html

(3)

文章推荐

  • 上海疫情最新消息今天又封了.上海疫情最新情况公布?

    现在去上海高铁封了吗〖壹〗、近来上海高铁并未全面封停,但部分车次可能因疫情或天气情况临时调整,建议出行前通过12306官方网站或APP查询最新信息。出行前需注意:实时查询车次:受局部疫情影响,个别线路或列车可能暂停运营,尤其是中高风险区域关联车次。建议提前1~2天确认车票状态。〖贰〗、上海封控区

    2025年06月21日
    85
  • 刚刚,成都突发地震!

    速报参数速报参数:据中国地震台网正式测定,6月24日6时27分在四川成都市蒲江县发生3.6级地震,震源深度8公里,震中位于北纬30.11度,东经103.41度。基础背景附近村镇:本次地震周边5公里内的村庄有郭家山、猴子岩、灯草沟、马鞍石、龙门村、看灯山、骑龙村、方家沟、尖峰村、铜瓦寺,20公里内的乡

    2025年06月25日
    87
  • 收到中方邀请后,特朗普这次真想访华了,行前他还为中国说起好话

    特朗普对于中国的态度,突然来了个一百八十度的转变,不仅淡化了中美之间的矛盾,还表示他们和中国“相处得很好”。这是为什么?可能是因为特朗普这次真的想访华了,而且,媒体已经不断放出相关风声,一会儿说特朗普要率团访华,一会儿说特朗普要来参加我国的“9.3阅兵”,或许,世界格局又要发生改变。·态度突然转变

    2025年07月02日
    93
  • 微乐宁夏麻将插件(揭秘手机上系统发好牌)的简单介绍

    微乐四川麻将要如何让系统发好牌_微乐四川麻将让系统发好牌详细介绍保持良好的牌风:自觉改掉陋习,如乱碰乱吃、随意弃胡等,这些行为会影响其他玩家的游戏体验,也会影响自己的牌运。专注游戏:打牌时要用心专一,不可分心,这样才能更好地分析牌局,做出正确的决策。观察和分析:观察其他玩家的牌数:通过前几轮打出的

    2025年07月23日
    79
  • 我来教大家“微乐跑得快怎么调胜率(专用辅牌神器免安装)

    软件神器超绝!微信小程序雀神麻将开挂辅助插件(确实有挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序雀神麻将开挂辅助插件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器

    2025年09月12日
    29
  • 3分钟学会“七包埋雷技巧”(详细透视教程)-今日头条

    软件神器超酷!同城游五十K通用辅助器(确实有插件吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”同城游五十K通用辅助器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月13日
    29
  • 我来教大家“微信qq红包控制尾数大小软件扫雷”(详细透视教程)-今日头条

    软件神器揭秘!大头十三水究竟有没有挂吗(会员会提高胜率吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”大头十三水究竟有没有挂吗是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年09月24日
    21
  • 一加15将搭载165Hz刷新率屏幕,165超帧时代开启

    五年前,一加曾引领行业突破120帧高帧率,今天的一加游戏大会上一加再次改写游戏帧率规则,开启下一个发展周期——165超帧时代。一加宣布即将发布的一加15将首发搭载1.5K165Hz高刷新率屏幕和第五代骁龙8至尊版处理器,兼顾高分辨率与高刷新率,搭载自研的“风驰游戏内核”和“电竞三芯”等技

    2025年09月27日
    20
  • 我是北京人,去了趟广西桂林,不得不说,桂林比网上评价的还要好

    先说说漓江杨堤段,早听说“漓江山水甲天下”,可坐竹筏从杨堤漂向九马画山时,还是愣了神。水是真清啊,比昆明湖透亮十倍不止,阳光穿过云缝洒在水面,底下的鹅卵石、窜来窜去的小鱼看得明明白白,竹筏划过只留一道浅痕,像用指尖在玻璃上划了下。两边的山更奇,全是尖尖的、拔地而起的孤峰,有的像斜插的笔架,有的像卧着

    2025年09月27日
    19
  • 大唐麻将猫腻秘籍真的有挂(其实是有挂确实有挂)/大唐麻将有挂是真是假

    古代女子喜欢什么游戏有什么好玩的古风游戏比如《大唐豪侠》《大唐无双》《大明龙权》还有些如果你想玩女孩子喜欢玩的一些游戏,我建议玩下完美世界,画面不错,女孩子比较多,但是比较好去玩官方,不要去私服再有就是可能会有些网页游戏大概会跟宫廷挂钩吧或许希望你能早日找到喜欢的游戏仙剑奇侠传4仙剑奇侠传你好!神

    2025年08月22日
    83

发表回复

本站作者后才能评论

评论列表(4条)

  • 神都未醒
    神都未醒 2025年10月13日

    我是视听号的签约作者“神都未醒”!

  • 神都未醒
    神都未醒 2025年10月13日

    希望本篇文章《一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场》能对你有所帮助!

  • 神都未醒
    神都未醒 2025年10月13日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 神都未醒
    神都未醒 2025年10月13日

    本文概览:前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们