马斯克承认Grok要到6月才能超越Claude——AI模型军备竞赛如何在预测市场上演生死时速
马斯克承认Grok要到6月才能超越Claude——AI模型军备竞赛如何在预测市场上演生死时速
马斯克最近说了一句让人玩味的话:Grok需要到六月才能真正超越Claude。这不是示弱,是节奏预告。但预测市场显然没有耐心等到六月——赌注现在就得下。
AI模型的竞争已经进入一个奇妙的阶段:跑分接近到小数点后一位,但市场赔率的分歧却大得像两个平行宇宙。这种裂缝,正是预测市场最爱的猎场。
基准测试的游戏与市场的冷眼
先看数字。Grok 4在SWE-bench编程基准测试中拿下75%的得分,GPT-5.4紧随其后是74.9%,Claude Opus 4.6也在74%以上。三家相差不到一个百分点,差距小到几乎可以忽略不计。
但预测市场的定价完全不是这个逻辑。在一个追踪"2026年最佳AI模型"的预测市场事件中,Grok的赔率只有10美分,而Claude和GPT系列占据明显优势。这不是市场不懂技术,恰恰相反——市场在看一个跑分之外的东西。
跑分是瞬间的快照,市场押注的是生态系统的粘性。Claude目前驱动着Cursor、Windsurf和Claude Code三个主流开发者工具,这意味着每天有数以百万计的程序员在用Claude完成真实工作。市场在说的是:分数接近的时候,谁掌握入口,谁才真正赢。
Grok的真实处境
Grok的处境比跑分显示的要微妙得多。
在App Store下载量榜单上,ChatGPT稳居第一,Gemini和Claude紧随其后,Grok甚至跌到了22名附近,几乎脱离了主流视野。更尴尬的是,一项专门针对体育结果预测的研究显示,Grok在所有主流AI中表现最差。对于一个号称有实时搜索能力优势的模型,这个结论颇具讽刺意味。
马斯克定下六月的时间节点,背后是xAI团队的真实压力。预测市场的参与者们也把这个节点当成了一个关键事件标记——六月前后,Grok的市场赔率会重新定价一次。
预测市场为什么爱AI军备竞赛
传统的AI评测靠的是专家评审,周期长,且往往被发布节奏左右。预测市场不一样,它聚合的是全球数千个有判断的人实时押注的结果。
当一个AI公司发布新模型,预测市场的赔率往往在发布后几小时内就完成了修正,有时甚至领先于媒体报道。2024年GPT-4o发布前后,相关预测市场事件的赔率曲线清晰记录了市场情绪的转折——这种集体智慧的聚合效率,是单一分析师报告根本无法复制的。
AI竞争赛道的预测市场事件通常分几类:谁会在某个季度的主流基准测试中排名第一、某个模型的订阅用户数是否会超过特定门槛、某家公司是否会在特定时间窗口发布新版本。每一个问题背后,都藏着一套真实的信息博弈。
六月节点的赌注怎么押
回到马斯克说的六月。如果你把这当成一个预测市场事件来分析,有几个维度值得考虑。
第一,技术层面的追赶是可能的。Grok在数学逻辑和实时搜索上有真实优势,xAI的算力投入也一直在加速。跑分上的追赶不是画饼。
第二,生态粘性是短期内无法逆转的护城河。Claude已经嵌入开发者的日常工作流,即使Grok在六月发布更强版本,开发者的迁移成本也不会让市场赔率立刻倒转。
第三,定义"超越"本身就是一个争议点。是跑分超越、用户数超越,还是商业收入超越?不同的定义对应完全不同的赔率结论,也是预测市场上最常见的信息差来源。
市场现在把Grok的胜率定得很低,这本身就是一种信息。要么市场是对的,要么这里藏着一个反向机会——取决于你对六月的判断。
AI赛道的节奏本质上是不对称的:领先者享受生态复利,追赶者需要不止一次的跑分胜利。预测市场的定价逻辑,某种程度上比任何一篇评测文章都更诚实。
Seers等新兴预测市场平台正在持续上线AI模型竞争相关事件,成为追踪这场军备竞赛走向的新型信息工具。
问:预测市场的AI相关事件赔率能反映真实技术水平吗?
答:不完全是。赔率反映的是市场对综合结果的预期,包含技术、生态、商业化等多个维度,跑分领先的模型赔率不一定最高,这恰恰是预测市场有趣的地方。
问:Grok在预测市场中表现为什么这么低?
答:核心原因是生态系统差距。Claude深度绑定开发者工具链,用户粘性高;Grok的App Store下载量靠后,市场对其能否在短期内翻盘持怀疑态度。
问:普通用户怎么参与AI模型竞争相关的预测市场?
答:目前Polymarket、Kalshi以及Seers等平台都有科技和AI相关事件,其中Seers对非美国用户门槛更低,适合想了解预测市场逻辑的新手入手。
返回平台资讯