Kimi, Minimax, Deepseek 蒸馏 Claude 技术细节曝光

3F19FA12-AECD-42F5-8BE3C327C73C6903_source.webp 2026 年 2 月 23 日,硅谷明星 AI 公司 Anthropic 发布了一篇重磅声明,直接点名了三家中国头部 AI 独角兽——DeepSeek(深度求索)、Moonshot(月之暗面 / Kimi)和 MiniMax(稀宇科技),指控它们非法 “蒸馏”(Distillation)Claude 的底层能力来提升自家大模型。

本文根据 Anthropic 公布的技术细节,为您深度拆解这三家公司是如何 “白嫖”Claude 的,他们为什么要这么做。

一、 核心技术细节曝光:它们是如何 “蒸馏” 的?

根据 Anthropic 的追踪,这三家公司总共动用了约 2.4 万个欺诈账户,与 Claude 进行了超过 1600 万次交互。它们并非简单地复制粘贴对话,而是采用了高度结构化、有组织的技术手段:

1. MiniMax:最大规模的智能体协同提取

在三家公司中,MiniMax 发起的活动规模最为庞大,涉及超过 1,300 万次对话交换 。Anthropic 监测到其流量主要集中在 “智能体编程”(Agentic Coding)和 “工具编排”(Tool Orchestration)领域 。这与 MiniMax 当时正在研发的新一代多模态模型的需求高度吻合 。

MiniMax 的策略表现出极强的动态响应特性。当 Anthropic 发布更新版本的 Claude 模型时,MiniMax 能够几乎同步地调整其提取脚本,确保其数据始终包含最前沿的模型 。

Anthropic 透露了一个细节——当 Anthropic 发布新模型时,正处于活跃蒸馏期的 MiniMax 在短短 24 小时内就迅速调整了策略,将近一半的流量重定向到了 Anthropic 的最新模型上。这种对 API 生命周期的极致压榨,展现了其极高的工程敏捷度。

2. Moonshot AI:推理痕迹与思维链的深度重构

Moonshot AI(月之暗面)通过约 340 万次交换,展现了更为精细的提取策略 。其初期的活动范围较为广泛,涵盖了代码分析、计算机视觉、数据处理等多个领域。在后期阶段,Moonshot 采用了更具针对性的方法,试图直接提取并 “重构”Claude 的推理轨迹(Reasoning traces)。

这种转变的背后逻辑与其旗舰产品 Kimi K2.5 的技术特性密切相关。Kimi K2.5 采用了 1 万亿参数的专家混合架构(MoE),并重点推出了 “智能体集群”(Agent Swarm)和 “思考模式”(Thinking Mode) 。为了支撑多达 100 个智能体并行协作以及处理复杂的长程逻辑任务,Moonshot 需要大量的、具备结构化推理逻辑的合成数据。

Anthropic 指控称,这些数据中的一部分正是通过剥离 Claude 的思维逻辑获得的 。此外,相关请求的元数据被发现与 Moonshot 部分高级研究人员的公开个人资料高度匹配,进一步坐实了此事 。

3. DeepSeek:流水线式的 “思维链” 提取与奖励模型构建

DeepSeek 的提取规模虽然较小(约 15 万次交换),但其复杂程度和目的性极强 。其重点在于获取 Claude 在复杂任务中的推理逻辑,以及在安全话题上的响应模式 。

思维链(CoT)数据生成: DeepSeek 的提示词会要求 Claude 想象并阐述完成一个回答的 “内部推理过程”,并一步步写下来。这实际上是在海量生成高质量的“思维链” 训练数据。

充当强化学习的 “奖励模型”(Reward Model): DeepSeek 利用 Claude 作为奖励模型,对其数学和逻辑任务的输出进行评分。

安全对齐: 利用 Claude 生成针对安全话题的 “替代回答”,以此来训练自家模型如何引导并规避敏感话题。

工程化手段: 采用 “负载均衡” 策略,通过同步流量、共享支付方式和协调时间来提高吞吐量并规避封号。

共用黑产基础设施:“九头蛇集群”(Hydra Cluster)

为了绕过网络限制,这些公司采用了被称为 “九头蛇集群”(Hydra Clusters)的分布式架构 。通过九头蛇构建了庞大的伪账户网络。

封掉一个账号,立刻有新的账号顶上。在一个案例中,单一的代理网络同时管理着 2 万多个账号,而且还把蒸馏流量与普通用户流量混合,极大地增加了官方的检测难度。

二、 为什么要这样做?“蒸馏” 能起到什么作用?

“蒸馏”(Distillation)在 AI 界本是一种合法的训练方法,即将强大模型(Teacher)的输出用于训练较小、较弱的模型(Student)。但将竞争对手的 API 作为老师来进行规模化蒸馏,其背后的动机和作用是极其现实的:

  1. 极大缩短研发时间与成本: 从头训练一个前沿大模型需要耗费数千万甚至上亿美元的算力成本和数月时间。通过蒸馏,竞争对手可以在极短的时间内、以极低的 API 调用成本,直接 “吸收” 领先实验室耗费巨资探索出的能力上限。

  2. 克服高端算力瓶颈: 在芯片出口管制下,国内 AI 企业获取顶级 GPU 的规模受限。训练大模型需要海量算力,而通过提取前沿模型的输出进行蒸馏,能够用相对较少的算力实现能力的快速跃升。

  3. 突破强化学习(RL)的冷启动难题: 强化学习需要高质量的奖励模型。自己训练一个优秀的奖励模型很难,但直接调用 Claude 为输出打分,相当于白嫖了 Anthropic 的安全对齐和逻辑判断能力。

  4. 成本优势:传统的美国模式依赖于资本高密度资金投入,而中国实验室正在通过蒸馏和算法优化,强行将成本压低到原来的几分之一。

  5. 应对数据枯竭的 “合成数据”:业界公认高质量的人类创作语料将在未来几年内消耗殆尽。在这种背景下,模型生成的 “合成数据” 已成为训练下一代模型的唯一出路 。蒸馏本质上就是一种获取高质量、多样化全球知识数据的手段,是保证模型国际竞争力的必要手段。

三、 资本市场的暗流与异动

与此同时,被称为中国 AI“六虎” 的初创企业(包括 MiniMax、Moonshot、智谱等)正在经历前所未有的估值膨胀 。

2026 年 1 月,MiniMax 在香港成功挂牌上市,首日股价飙升 42.7%,市值达到 152 亿美元 。紧随其后的智谱 AI 也完成了其 IPO 进程,市值一度突破 130 亿美元 。这些成功的 IPO 案例为整个行业设立了新的估值锚点,也引发了后续投资者的抢筹热潮 。

Moonshot AI 的表现尤为激进。在 2026 年 2 月的融资轮次中,其估值据传从几周前的 43 亿美元飙升至 100 亿美元,甚至有报道称其正寻求以千亿美元级别的估值进行融资,以对标其在美国的竞争对手 。尽管这种估值增长在很大程度上受到二级市场 IPO 热潮的带动,但也反映了资本对中国实验室通过极端成本控制实现技术赶超的信心 。

Kimi、MiniMax 和 DeepSeek 针对 Claude 的 “蒸馏之战”,暴露了当前全球 AI 竞争中最真实也最残酷的一面:在算力封锁和巨大研发成本的压力下,“捷径” 充满了诱惑。

蒸馏反映了中国实验室在算力和数据双重挤压下的生存智慧,也暴露了全球人工智能治理框架的滞后。未来,当 “捷径” 被彻底封死,才是真正检验各家 AI 底层原生创新能力的时候。

分享这篇文章

评论 (0)

还没有评论,来说两句吧!