更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA

姿妮 • 2025年10月10日 08:00 • 游戏攻略 • 阅读 49

时令发自凹非寺量子位 | 公众号 QbitAI又一个万亿参数级国产模型开源了！就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——拥有万亿参数的通用语言模型Ling-1T。...

时令发自凹非寺

量子位 | 公众号 QbitAI

又一个万亿参数级国产模型开源了！

就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——

拥有万亿参数的通用语言模型Ling-1T。

刚一登场，不仅超越开源模型DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905，还超越了闭源模型GPT-5-main、Gemini-2.5-Pro 。

在有限输出token的条件下，于代码生成、软件开发、竞赛数学、专业数学、逻辑推理等多项复杂推理基准中取得SOTA表现。

不仅如此，Ling-1T还展现出高效思考与精准推理的优势。例如，在竞赛数学榜单AIME 25上，Ling-1T就超越了一众模型获得最优表现。

更重要的是，Ling-1T在推理速度上的表现堪称惊艳，输入刚落下，模型立刻就启动思考进程。无论是复杂的逻辑推演，还是生成多轮长文本，它都能快速响应保持流畅输出。

Ling-1T参数够多，但它到底有多强、有多快？还是得通过实测才能见真章。

推理高效，前端有惊喜

不妨先用经典推理题目来小试一下身手。

让7米长的甘蔗通过2米高1米宽的门。

只见Ling-1T先将其判断为一个典型的空间几何优化问题，并进行了关键障碍分析。

随后，共提出了4种解决方案，每种方案都有具体的操作步骤和适用场景说明。

更关键的是，Ling-1T还能严谨地对每种方法进行物理可行性验证，详细分析其所需条件和潜在风险。

可以说是有理有据了（doge）。

既然如此，咱可就给Ling-1T上难度了，用一道“外星人分裂”问题测试一下其数学能力。

一个外星人来到地球后等可能选择以下四件事中的一件完成：
1、自我毁灭；
2 、分裂成两个外星人；
3、分裂成三个外星人；
4、什么都不做。
此后每天，每个外星人均会做一次选择，且彼此之间相互独立。
求地球上最终没有外星人的概率。

Ling-1T反应非常快，几乎是一看到问题就迅速开始分析与推理。

它首先确定了题目的类型，并对题目进行了建模，接着一步步求解最后得到正确答案：√2-1。

推理能力测试完毕，接下来轮到代码能力上场了。

正值诺贝尔奖揭晓之际，咱用它生成一个介绍诺贝尔奖的网站如何？

新模型kuku就是干啊，效果如下所示：

很直观，无需特意提醒，Ling-1T就将内容分成概览、奖项类别、历史时间线等模块，让用户可以快速定位感兴趣的信息。

无论是想了解整体概况、深入某个奖项类别，还是回顾诺贝尔物理学奖的历史演变，都能获得清晰、系统的呈现，使用体验更加直观高效。

双节假期刚结束，旅游攻略是不是做得头都大了。尝试用Ling-1T规划出行路线，它不仅把景点按特色分类，还贴心规划好一日游的时间安排和费用，连适合的交通工具、地道美食都一并推荐。所有选项都打上了清晰标签，让你轻松选择。

值得一提的是，基于Ling-1T强大的推理能力，研究团队还进一步提出了“语法–功能–美学 ”混合奖励机制，这意味着其生成的代码不仅正确、功能完整，还兼顾了界面和视觉美感。

例如，在ArtifactsBench前端能力基准上，Ling-1T就以明显优势成为开源模型中的第一名。

“中训练+后训练” ，让模型真正“学会思考”

模型开源之外，这一次蚂蚁也完整公布了Ling-1T背后的技术思考。

总结起来，最值得关注的就是研究团队在扩展模型尺寸和强化推理能力两方面的探索。

参数数量决定了模型能存储和表达的信息量，就像大脑的神经元越多，记忆和思考的能力越强。

参数不足时，模型可能只能记住简单规律，面对复杂或长下文问题时容易出错。

当参数充足时，模型可以在更大数据量和更复杂任务中实现更准确的推理和更好的泛化能力。

基于上述原因，Ling-1T沿用了Ling 2.0的架构设计，并在此基础上将总参数量扩展至1万亿，其中每个token激活约50B参数。

其基础版本（Ling-1T-base）首先在超过20T token的高质量、强推理语料上完成了预训练，并支持最长128K的上下文窗口。

随后，团队通过采用“中训练+后训练 ”相结合的演进式思维链（Evo-CoT）方法，这一改进让模型不仅拥有海量知识，更能像人一样逐步推理，极大提升了模型的高效思考和精准推理能力。

在研发Ling-1T万亿级模型的过程中，研究团队发现，扩展模型规模和强化推理能力会带来一定的性能提升。

在预训练阶段，他们先搭建了一个统一的数据管理系统，这套系统能追踪每一条数据的来源和流向。

然后，他们整理了超过40万亿token的高质量语料，并挑选出最优部分，用于Ling-flash-2.0的20万亿token预训练计划。

毕竟模型的推理能力就像大脑思考问题，先打基础知识，再训练逻辑推理，基础打得扎实，思考才能快而准确。

为了让模型既能积累丰富知识，又能提高推理能力，团队将预训练分成3个阶段：

第一阶段先用10T token高知识密度语料训练，让模型先全面掌握事实、概念和常识，为后续推理打下坚实基础。

第二阶段用10T token高推理密度语料训练，让模型学会逻辑推理、多步思考和问题解决技巧，让模型不仅知道答案，还能分析思路，提高解决复杂问题的能力。

中间训练阶段（Midtrain）则扩展上下文窗口到32K token，同时提高推理类语料的质量和比例，并加入思维链推理内容，为模型进入后训练做好热身准备，保证逻辑连贯性和推理效率。

整个训练过程中，团队根据Ling Scaling Laws设置学习率和批量大小，并用自研的WSM（Warmup-Stable and Merge）替代传统的WSD（Warmup-Stable-Decay）学习率策略。

要知道，在训练大模型时需要控制学习率（学习速度），就像学习弹琴或开车一样，速度太快容易出错，太慢又不够高效。

为此，WSM框架可实现无衰减学习率却能提升模型性能，核心思路可以概括为以下3步：

Warmup（预热）：训练一开始慢慢来，让模型稳定起来，不出大错。

Stable（稳定）：训练中期保持稳定的学习速度，让模型慢慢学到规律。

Merge（合并）：把训练过程中不同阶段保存下来的模型“融合”在一起，相当于把每一阶段的优点结合起来，既保留早期探索的优势，又强化后期收敛的效果，让模型最终表现更好。

Ling-1T通过中训练检查点合并技术表明，即使不采用传统的学习率衰减策略，模型仍能在绝大多数下游任务中取得更优性能。

实验结果显示，影响模型表现最关键的不是合并次数，而是合并时的训练窗口，即何时进行合并以及合并持续的时间长度，对性能的影响远超其他因素。

在后训练阶段，由于当前主流的强化学习算法（如GRPO和GSPO）各有局限。

GRPO：将每个词元（token）视为独立动作进行优化，虽精细，但容易导致语义的过度碎片化。
GSPO：将整个生成序列视为单一动作进行优化，在全局序列级别执行策略更新，虽稳定，但又可能造成奖励信号的过度平滑。

蚂蚁发现，对于推理任务来说，句子比单个词元或整个序列更符合语义逻辑，它不仅能保持语义完整，又能让模型在局部逻辑上进行有效训练，从而更精准地捕捉语言中的推理和逻辑关系，因此更适合作为策略优化的基本单位。

于是，研究团队创新性地提出了LPO方法（Linguistics-Unit Policy Optimization，LingPO），首次将句子作为中间粒度进行策略优化，在语义与逻辑之间找到最佳平衡，并在这一层面上执行重要性采样和裁剪，从而帮助万亿参数模型更稳健地训练。

这种设计既避免了词元级别的碎片化问题，又克服了序列级别过于笼统的局限，使奖励信号与模型行为在语义层面上更加精准地对齐。

实验结果显示，与GRPO和GSPO相比，LPO在训练稳定性和模型泛化能力方面都具有明显优势。

中国大模型“王炸”连发

今年以来，中国开源力量不断给予大模型圈惊喜。从DeepSeek这尾鲶鱼搅乱基础大模型格局，到Qwen家族以全面覆盖、快速迭代的姿态撼动Llama系列王座……国产开源模型不仅在全球榜单上站到C位，更重要的是，每一次“开源大礼包 ” ，都能从不同的角度给模型研究、应用带来新的思考。

此番蚂蚁开源Ling-1T，亦是如此。

在技术范式上，Ling-1T在架构设计和训练方法上实现了多重创新，以演进式思维链的新方法，使得模型在每一阶段中生成的思路或结论，都可以被复查、修正或扩展，从而不断迭代优化。

同时，前一阶段的推理成果会被累积并传递至后续阶段，形成知识的持续演进。这种渐进式的推理机制，不仅增强了思维过程的稳定性和结果准确性，也使得推理路径清晰可循，显著提升了复杂任务的可解释性。

在效果体验上，Ling-1T展现出令人印象深刻的快速响应能力，即刻可完成复杂任务的推理与生成。

无论是面对抽象的数学问题、多步骤的逻辑推演，还是编程任务与科学背景的深度解析，该模型均能迅速构建出条理清晰、逻辑严谨的解答。

总结起来，一方面，Ling-1T让蚂蚁正式加入 “万亿参数开源俱乐部”，与Qwen、Kimi并肩站在开源生态的第一梯队；另一方面，其创新的非思考模型架构与高效推理优化设计，为业界探索高性能思维模型提供了新的技术范式。

更加值得关注的是，尽管2025年只剩下最后的83天，但蚂蚁的最新开源动作，也意味着中国大模型厂商们的开源节奏并没有放缓。

就在国庆节前，Qwen接连推出多模态模型Qwen3-Next、Qwen3-VL以及图像编辑模型Qwen-Image-Edit-2509；DeepSeek也在短期内连续开源DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp两个重要版本，还被爆料年底会有更重磅模型进展……现在，假期刚结束，蚂蚁再次把这种开源势头续住了。

可以预见的是，大模型领域的精彩还将继续。而下一个惊喜，大概率还是来自中国。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

本文来自作者[姿妮]投稿，不代表视听号立场，如若转载，请注明出处：https://m.stddy.com/youxi/202510-50809.html

49 4

本文作者

姿妮签约作者

323 文章

3895969 评论

1 粉丝

我是视听号的签约作者[姿妮],本篇文章《更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA》主要讲述了:时令发自凹非寺量子位 | 公众号 QbitAI又一个万亿参数级国产模型开源了！就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——拥有万亿参数的通用语言模型Ling-1T。...

新闻资讯

曾经世界上最大的城市，差点取代北京，成为中国首都，如今怎样？

它曾经是世界上最大的城市，无比繁华。建国初期更是差点取代北京，当选首都。如今却沦为了四线城市，辉煌不再。这座城市到底是何方神圣，从繁荣到衰落它又经历了什么呢？一、入选首都名单1949年新中国成立前夕。一场有关新中国建都何方的政治协商会议在北平盛大召开。会上众人可谓是唇枪舌剑、各执一词，最终将十一个城

衷子晴
2025年06月22日
116
常识科普

暴雨大暴雨再来袭！这里将成为强降雨核心区 7月初降雨高温形势有大转变

今天，副热带高压主体位于海上，低空偏南暖湿气流推动对流发展，我国的降水分布零散，单点对流强度较大，在天气雷达图上看像是“天女散花”一样，杂乱无比。明后天，我国仍多这样的零散对流天气，而且由于高空槽东移和低空低涡发展，四川盆地及其周边或成为强降雨核心区。预计今天晚上到明天，四川盆地西部、甘肃南部、河南

江南沐雨
2025年06月29日
120
新闻资讯

仗打了1000多天，美国终于发现不对劲：原来中国三年前就选对了

打了三年多之后，美国终于明白了一个道理，中国的选择是最正确的。在三年之前中国就做出了正确的决定，而美国因为做出了错误的判断，所以被耽误了三年，损失非常惨重。如果没有这1000多天的消耗，如今的美国或许不会这么被动。一、俄乌冲突何时结束？特朗普上台以后不久就暂停了对乌克兰进行武器援助以及情报援助，7月

千云
2025年07月06日
112
生活经验

东莞大朗疫情风险等级(东莞大朗疫情分布图)

东莞低风险区有哪几个镇〖壹〗、东莞市的部分区域根据最新的疫情风险等级调整，有多个镇被划为低风险地区。具体而言，除了大朗镇外，黄江镇、石排镇等地都属于低风险区。东莞市新冠肺炎防控指挥部依据国家和省的相关防控要求，自2021年12月29日起，将大朗镇的部分区域从中风险地区调整为低风险地区。〖贰〗、是的

访亦
2025年07月09日
110
新闻资讯

手机河南麻将其实真的有挂(确实是有挂的).河南麻将免费下载？

自己创业做什么比较赚钱小吃行业小吃行业是创业的热门选取，无论是开设实体店还是流动摊位，只要有客流量，就可以轻松经营。例如，烤面筋、煎饼果子、鸡蛋灌饼、油炸小吃等，投资成本低，风险小，是初次创业的理想项目。如果开设店铺，投资也不高，小吃店无需豪华装修，简单的几十平米场所即可。金融科技领域是一个新兴

衷子晴
2025年07月31日
112
科技世界

实测分享“多乐跑得快黑科技神器（专用辅牌神器免安装）

这神器太香了!微乐河南麻将怎么让系统发好牌(助攻神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐河南麻将怎么让系统发好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有

首晓燕
2025年09月05日
62
作者专栏

必看教程“手机红中麻将有上面胡牌软件（专用辅牌神器免安装）

超实用的神器!天天武汉麻将其实是有挂的(为什么一直输)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”天天武汉麻将其实是有挂的是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

向晴
2025年09月16日
54
常识科普

玩家必备教程“麻友圈辅助器（助赢神器通用版）

软件神器超猛!微信小程序斗牛是不是有挂(提高胜率软件)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序斗牛是不是有挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

贾红岩
2025年09月18日
61
百科栏目

分享辅助“手机打牌软件怎么能看清别人的牌（助赢神器通用版）

软件神器无双!369互娱麻将其实有插件挂(充值会提高胜率么)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”369互娱麻将其实有插件挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器

褚钰浩
2025年09月19日
56
作者专栏

拔出萝卜带出泥，张纪中再迎噩耗，转移财产是冰山一角，麻烦大了

张纪中这事儿闹得沸沸扬扬，前妻樊馨蔓直接把他告到北京朝阳警方那儿，说他涉嫌职务侵占，金额高达816万多点。这不是头一回了，两人离婚都快十年了，还在为钱的事儿扯皮。事情得从头说起，2016年他们关系闹僵的时候，张纪中就开始动财产的手脚。他把北京那套价值1.2亿的别墅，还有美国的一处房产，转到当时当他助

耀火
2025年11月10日
20

发表回复

本站作者后才能评论

评论列表（4条）

姿妮 2025年10月10日

我是视听号的签约作者“姿妮”！

回复
姿妮 2025年10月10日

希望本篇文章《更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA》能对你有所帮助！

回复
姿妮 2025年10月10日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
姿妮 2025年10月10日

本文概览：时令发自凹非寺量子位 | 公众号 QbitAI又一个万亿参数级国产模型开源了！就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——拥有万亿参数的通用语言模型Ling-1T。...

回复

更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA

推理高效，前端有惊喜

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

推理高效，前端有惊喜