万亿参数 Kimi K2 开源,月之暗面研发工程师知乎亲述幕后故事
「参与过 Kimi K2 的接生,自己的孩子怎么看都顺眼」。7 月 11 日晚,国内大模型独角兽月之暗面正式发布并开源了其最新一代 MoE 架构基础模型 Kimi K2,总参数量达到 1 万亿(1T),这一消息迅速引发了 AI 领域的广泛关注,Kimi 内部则将 K2 研发群戏称为「接生群」。多位参与「接生」的 Kimi 研发人员随后在知乎展开「亲自答」,从多个角度深入讲述了其背后研发历程。
作为月之暗面 Infra 侧推理方面研发人员,知乎答主刘少伟谈及了 K2 模型结构的设计宗旨。他称 K2 模型是在 DeepSeek V3 结构的框架之下,如何选择合适的参数,使得模型在训练、推理成本与 v3 相当的前提下,获得明显更低的 loss。「综合以上四个相比 v3 的改动,我们能够得到一个在相同 EP 数量下,虽然总参数增大到 1.5 倍,但除去通信部分,理论的 prefill 和 decode 耗时都更小的推理方案」。

月之暗面研究员、知乎答主 Flood Sung 则表示,Kimi K2 最值得关注的信息,除了 MuonClip 带来的漂亮得起飞的 loss 曲线,还有就是 Agent 能力。他透露,为了实现更好的通用 Agent 能力,构建了一个大规模的 agent 合成数据 pipeline:简单的说是一个完全自动化的 agent 数据生产工厂,通过全流程的模拟来过滤出好的 Agent 轨迹数据。Flood Sung 称,「这个生产线非常符合老子的思想:『一生二,二生三,三生万物』。」
另一位月之暗面研发人员、知乎答主 Justin Wong 谈到 Kimi K2 为何会选择开源时称,开源意味着能够借助社区力量完善技术生态,「在我们开源不到 24 小时就看到有社区做出 K2 的 MLX 实现、4bit 量化等等,这些凭我们这点人力真的做不出来」。月之暗面研究员、知乎答主 Dylan 则表示,K2 实际上就是一个刚出生的 baby,虽然略显「灵性」,但和很多已久的 frontier model(前沿模型)相比,还是有很多、很明显的缺点,「作为 post-train(后训练)相关的同学,还是略感惭愧,希望后面的版本迭代里面能够持续释放 K2 base model 的潜力」。

开发者在 AI 成果发布的同时,越来越多选择来知乎发布背后的详尽思考。6 月,月之暗面也曾发布一款 Agent 产品,Kimi-researcher 两位主要研发人员也在知乎亲自答,解读产品背后的技术思考和亮点。更早之前,月之暗面开源 MoBA 框架研发人员鹿恩哲、苏剑林分别在知乎上讲述了研发思路,引发了业界对「稀疏注意力」框架的讨论。
2025 年以来,伴随 AI 技术新浪潮的蔓延,知乎引领了一系列全网重要的 AI 趋势发布。3 月,DeepSeek 在知乎开设官方账号,并独家发布《DeepSeek-V3/R1 推理系统概览》技术文章;智元机器人联合创始人彭志辉(稚晖君)在知乎以视频形式发布了人形机器人灵犀 X2;10 年「老答主」王兴兴在知乎与网友大量互动,分享宇树机器人最新研发动态……
在顶流创业者们的一次次分享中,知乎见证了中国创新科技势力的一次次突破,也凸显了知乎作为 AI 领域核心交流阵地的独特价值——以其浓厚的技术讨论氛围,搭建起开发者与行业、创新成果与大众认知之间的桥梁,让前沿技术不再是晦涩难懂的孤岛,持续推动着 AI 行业在「思维链开源」交流下向前发展跃迁。