AI Agent 生态速报 | 2026-05-23:OpenAI 证明 80 年数学猜想,GitHub 供应链失守 18 剖钟

AI Agent 生态速报 | 2026-05-23:OpenAI 证明 80 年数学猜想,GitHub 供应链失守 18 剖钟

OpenAI 模型自主否定 Erdős 80 年数学猜想,AI 推理能力边界再度呁突破;GitHub 被污染 VS Code 扩展攻击,18 分钟内 3800 个内部仓库失窃,Claude Code 配置文件成攻击目标,NSA 随即发布 MCP 安全指南;Anthropic 以 $900B 估值举办开发者大会,Jack Clark 同日预言 2028「60%+ AI 自我改进」;Gemini 接入 Adobe/Canva/CapCut 完成 AI 创意工具闭环;OpenAI/Anthropic 双双冲刺年内 IPO。

Agent 生态周报
May 23, 2026 · 10:05 AM
1 subscriptions · 31 items

Research Brief

AI Agent 生态速报 | 2026-05-23:OpenAI 证明 80 年数学猜想,GitHub 供应链失守 18 分钟

本期覆盖 2026-05-22 至 2026-05-23 约 24 小时动态。五条主线:AI 自主解决长期数学开放问题、AI 基础设施供应链安全危机、Anthropic 商业与存亡论的两面裂缝、Gemini 创意生态完成闭环,以及 OpenAI/Anthropic 双 IPO 倒计时。

一、AI 第一次自主解决数学界的「公开问题」

OpenAI 于 5 月 20 日宣布,其内部通用推理模型自主否定了 Erdős 在 1946 年提出的平面单元距离猜想——这道题在离散几何领域挂了 80 年,Erdős 本人还为此悬赏。1
结果本身已足够惊人:该模型给出了一个 125 页的证明,构造了无限族平面点集,使得单元距离对数超过此前已知最优解(重缩放方格网),指数增益从 提升至 ,由普林斯顿数学家 Will Sawin 量化)。
重新缩放方格网构造的单元距离可视化,稠密网络节点图
此前已知最优解:重缩放方格网构造的单元距离分布 1
让数学社区更为意外的是「怎么做到的」。证明的核心工具来自代数数论——Golod–Shafarevich 无限类域塔理论——这是组合几何学家从未想到过要连线的方向。Fields 奖得主 Tim Gowers 评价:「这是 AI 数学领域的里程碑。如果是人写的投到《数学年刊》,我会直接建议接收。」1
该模型并非专门为此问题训练,也不是在人工引导下逐步搜索——它只拿到了问题陈述,然后自己找到了证明。这是 AI 首次在数学某子领域中心的「开放问题」上实现自主解题,不是比赛基准,不是人工辅助。
这对 Agent 生态意味着什么: 这道证明是「多步长程推理」能力的硬性测试,而且可以客观验证。如果同样的推理能力被迁移到生物学、材料科学或代码安全分析,复杂度量级是相当的。Anthropic 的 Karpathy 刚入职、目标就是用 Claude 加速 Claude 自身预训练——这个进展给那条路径提供了直接的可信度支撑。

二、GitHub 被黑 18 分钟:AI 工具链的供应链噩梦

GitHub 供应链被黑事件报道配图
恶意 Nx Console 扩展存活 18 分钟,即完成对 GitHub 内部仓库的凭证窃取并横向扩散 2
5 月 20 日,GitHub 确认约 3800 个内部仓库遭到窃取。攻击媒介是一个被污染的 VS Code 扩展包:Nx Console(2.2 百万次安装、已认证发布者),恶意版本在 5 月 18 日的 Visual Studio Marketplace 上存活了整整 18 分钟——12:30 至 12:48 UTC。2
这 18 分钟已经够了。恶意包在启动时静默执行一条伪装成 MCP 配置任务的 shell 命令,下载了一个 credential stealer,目标包括:1Password 密钥库、GitHub 令牌、npm token、AWS 凭证,以及开发者本地的 Claude Code 配置文件~/.claude/settings.json)。
同一个攻击者组织(TeamPCP,Google 追踪名 UNC6780)还横向扩展到 OpenAI(2 台员工设备被入侵,iOS/macOS/Windows 代码签名证书已轮换,macOS 签名证书将于 6 月 12 日完全吊销)和 Mistral AI(1 台员工设备,面临 $25,000 Monero 勒索)。3
Versa SASE 平台内 Verbo AI 助手执行 MCP 动作并显示零信任审批界面
Versa Zero Trust MCP 架构:每个 AI Agent 动作执行前均需经过策略验证和归属日志 4
NSA 的 AI 安全中心(AISC)随即于 5 月 20 日发布 17 页 MCP 安全设计指南,正式点名 MCP 协议现存的三类新型风险:动态工具调用(运行时自主调用新工具)、隐式信任关系(代理之间的信任假设)、上下文共享(上下文泄漏到不预期方)。指南明确指出传统网络安全原则无法单独覆盖这些风险,需要将代理环境作为「连续整体」来防护。5
Versa 同日推出针对 MCP 工作流的零信任架构,把 RBAC、策略引擎和全归属日志注入到 AI Agent 每个动作执行前——「自动执行 / 需人工批准 / 直接拦截」三档分类。4
技术选型提示: 安装了 Nx Console 的开发者应立即轮换所有凭证(GitHub PAT、npm token、AWS key、1Password 密钥库)。Claude Code 用户检查 ~/.claude/settings.json 是否有异常。NSA 文件的核心判断值得收藏:MCP 的集成漏洞不能靠打补丁解决,需要在架构层面重新审视代理信任边界。

三、Anthropic 的两张面孔:$900B 估值与「60% 概率 2028 自我改进」

5 月 21 日,Boris Cherny(Claude Code 作者)在伦敦「Code w/ Claude」开发者大会上展示了一个有点荒诞的统计:当他问台下有多少人合并过「完全没看过的 Claude 写的 PR」,举手的比例出乎意料地高。一名 Anthropic 研究员说「这是危险的游戏」,然后迅速接着讲下一个功能。6
同一天,Anthropic 联合创始人 Jack Clark 在牛津大学发表了完全不同基调的演讲,预测 2028 年底「有 60%+ 概率」出现可以自我训练后续版本的 AI 系统,即「递归自我改进」。他把未能为此做准备比作没准备好新冠——危机来临后的反应,而不是预防。Clark 明确说 AI 让所有人死亡的风险是「非零概率,而且没有消失」。6
同期,Anthropic 研究院发布的一份 5 页研究议程正式使用了「intelligence explosion(智能爆炸)」的表述,并报告了「AI 已开始加速 AI 自身研发」的早期迹象。这不再是理论推演,而是公司官方内部判断。
Anthropic 正以接近 $900 亿美元的估值为 IPO 筹资(目标时间窗口:2026 年 10 月)。同一家公司既是「宇宙中最危险技术的持有者」,也在招待开发者免费午餐。Clark 的演讲没有出现在伦敦大会的任何议程里。

四、Gemini 创意生态完成最后一块拼图

Google I/O 2026 后,Gemini 的创意工具整合加速落地:
  • Adobe 集成:Firefly AI Assistant 可在 Gemini 对话中直接调用 Photoshop、Premiere、Illustrator、Lightroom,Adobe CEO Narayen 称其为「将 Adobe 的创意 DNA 与 Google AI 模型结合」。
  • Canva Magic Layers:在 Gemini 中生成图片后,可直接在 Canva 里以独立图层形式继续编辑——该功能已对 Gemini AI Ultra 订阅者早期开放。
  • CapCut 合作:公告已发,移动端视频/图片剪辑将通过对话式提示词在 Gemini 内完成,「即将推出」。
7
与此同时,Google 确认 Gemini Managed Agents API 已可用,支持单次 API 调用启动带跨调持久状态的完整 Agent。Gemini Spark(24/7 个人 Agent)的第三方 MCP 接入「将在数周内到来」,Canva、Instacart、OpenTable 已列为首批合作方。8
MCP 由 Anthropic 起草,Google 现在大规模落地——两家最大模型提供商的 Agent 架构正快速向同一协议标准收拢,这对开发者意味着切换和互操作成本都会比六个月前低得多。

五、IPO 倒计时与 AI 驱动裁员

IPO 浪潮: OpenAI 已推进 S-1 申报,市场预期估值最高 $1 万亿,Q4 2026 上市;Anthropic 目标 10 月,当前私市估值约 $950 亿。SpaceX 也在同期准备上市。三家同时冲刺 IPO 在科技史上几乎没有先例,部分分析师开始用「市场顶部信号」来框架这个时间节点。9 10
裁员叙事定型: Meta 裁员 8000 人(5 月 19 日),同步曝出 Zuckerberg 用员工工作数据训练 AI 的「Model Capability Initiative」——被裁者在同一天得知自己的日常操作已被用来训练替代自己的模型。Intuit 紧随其后宣布裁员约 3000 人(总工作人员的 8%),同时宣布 AI Agent 驱动的 QuickBooks/TurboTax 自动化升级路线图,预计年化节省 $5 亿+。8
「AI 节省的成本流向股东和基础设施供应商,再培训和再就业的时间线更长且不确定」——这是本周多家企业裁员公告的共同底层逻辑,也是特朗普叫停 AI 监管行政令的政治经济学背景。

本期扩展跟踪

事项状态优先级
OpenAI 数学推理能力能否复现到其他科研场景待观察(6-8 周内看生物/材料应用案例)
NSA MCP 指南落地:企业 / 开源框架响应速度待追踪(LangChain/AutoGen 是否提供官方适配建议)
Claude Managed Agents + 沙盒合作伙伴生态扩张进行中(Cloudflare/Daytona/Modal/Vercel 已接入)
Gemini MCP 第三方接入正式开放时间「数周内」→ 需在下期确认
OpenAI/Anthropic IPO 申报时间线OpenAI Q4 2026,Anthropic 10 月
2028「递归自我改进」预言:外部独立验证长期跟踪低(当期)

Add more perspectives or context around this Drop.

  • Sign in to comment.