登录
注册
人工智能领域正逼近一个关键的转折点,Anthropic 联合创始人杰克·克拉克(Jack Clark)在最新分析中提出,到 2028 年底,人工智能系统在没有人类干预的情况下实现自我演进的概率可能超过 60%。这一判断并非空穴来风,而是基于对大量公开数据的深度梳理。午方 AI 梳理发现,在 CORE-Bench、PostTrainBench、MLE-Bench 及 SWE-Bench 等关键基准测试中,AI 模型在复现研究论文、自主微调开源模型、解决 Kaggle 竞赛任务以及修复 GitHub 代码库等核心研发环节的表现呈指数级上升。克拉克将这种跨越不同层级和范围的进步描述为“分形式”上升趋势,预示着端到端自动化研发能力的临近。一旦实现,AI 将能够自主构建后续系统,开启自我迭代的闭环。这一观点在学术界与业界引发了激烈讨论,华盛顿大学计算机科学教授佩德罗·多明戈斯(Pedro Domingos)指出,虽然自 20 世纪 50 年代 LISP 语言诞生以来 AI 已具备“自我构建”雏形,但关键在于这种能力是否能带来边际收益的持续增长,目前尚缺乏确凿证据。
同时,也有声音质疑为何从 2027 年到 2028 年概率会突然激增 30%,这是否意味着 2027 年底前将出现颠覆性技术突破。
此外,鉴于克拉克现任 Anthropic 公关负责人的身份,部分观察者认为这可能是公司新战略的一部分,旨在通过引用大量文献来强化其长期以来的风险预警。克拉克在《Import AI 455》专栏中详细阐述了这一“不受欢迎的判断”,承认完全理解其深远影响极具挑战性,但他坚信人类正处于一个特殊时刻:AI 研究即将步入全面自动化阶段,一旦跨越这条分界线,未来将变得难以预测。克拉克明确表示,虽然 2026 年实现全面自动化尚不现实,但在未来一两年内,非最先进模型层面出现端到端训练后续系统的概念验证案例可能性极高;而对于最先进模型,受限于高昂的计算成本和复杂的人类协作需求,挑战依然巨大。午方 AI 注意到,克拉克的结论主要基于 arXiv、bioRxiv 和 NBER 上的论文以及领先 AI 公司的产品验证,他认为当前 AI 开发中的工程环节自动化已基本就绪。若此趋势延续,未来模型将具备足够的创造力,不仅能自动改进现有方法,甚至可能取代人类研究人员提出原创性方向。软件即代码,而 AI 正在重塑代码编写方式。一方面,AI 在编写复杂应用代码上日益熟练;另一方面,它能在极少监督下串联线性编码任务,如编写代码后自动测试。SWE-Bench 数据极具说服力:2023 年底表现最佳的 Claude 2 整体成功率仅约 2%,而 Claude Mythos Preview 已飙升至 93.9%,几乎攻克该基准。尽管基准测试存在误差(如 ImageNet 验证集中约 6% 标签错误),但 SWE-Bench 仍被视为衡量 AI 通用编程能力及对软件工程影响的关键指标。克拉克指出,硅谷前沿实验室的工程师和研究人员已普遍使用 AI 编写代码、测试用例及检查代码,这显著加速了研发进程。METR 创建的图表进一步量化了 AI 任务复杂度的演变,以人类完成同类任务所需小时数为标尺。2022 年 GPT-3.5 对应 30 秒任务,2023 年 GPT-4 对应 4 分钟,2024 年 o1 对应 40 分钟,2025 年 GPT-5.2 High 对应 6 小时,至 2026 年 Opus 4.6 已能处理约 12 小时的任务。长期专注 AI 预测的阿杰亚·科特拉(Ajeya Cotra)认为,到 2026 年底,AI 独立完成需人类 100 小时的任务并非不切实际。这种时间跨度的显著增长与代理编码工具的兴起密切相关,这些工具能代表人类长时间独立执行任务,重新定义了 AI 研发的内涵。许多原本需数小时的数据清洗、读取及实验启动等任务,现已落入现代 AI 系统的处理能力范围内。随着 AI 成熟度提升,其能独立承担的工作量增加,进而推动研发流程更多环节的自动化。这种自动化依赖于对 AI 能力的信任及其独立完成任务的可靠性,无需人类持续监督。午方 AI 分析认为,随着 AI 编程能力与世界建模能力的双重提升,一套完整的工具链已出现,助力科学家在更广泛场景中加速研究并实现部分自动化,包括复现研究结果、结合机器学习解决技术问题以及优化 AI 系统本身。在复现研究结果这一核心任务上,CORE-Bench(计算可复现性代理基准测试)要求 AI 安装依赖、运行代码并回答相关问题。2024 年 9 月推出时,GPT-4o 在最具挑战任务集上得分约 21.5%;而到 2025 年 12 月,Opus 4.5 已以 95.5 分的成绩宣告该基准被攻破。OpenAI 开发的 MLE-Bench 则评估 AI 在离线环境下参加 Kaggle 竞赛的能力,涵盖 75 种任务。2024 年 10 月发布时最佳系统 o1 得分 16.9%,至 2026 年 2 月,Gemini 3 在具备搜索功能的代理框架下得分达 64.4%。核函数优化作为决定训练与推理效率的关键环节,正成为 AI 驱动研发的热点。从 DeepSeek 模型设计 GPU 核函数,到 PyTorch 转 CUDA 代码,再到利用大语言模型生成优化的 Triton 核函数,相关研究层出不穷。PostTrainBench 则更具挑战性,评估先进模型能否接管小型开放权重模型并通过微调提升性能。2026 年 3 月,AI 系统在后训练任务中性能较人类训练结果提升约 50%,涉及 Qwen 3、SmolLM3、Gemma 3 等多个模型及 AIME 2025、HumanEval 等基准测试。Anthropic 过去一年的数据同样惊人:在仅用 CPU 训练小语言模型的任务中,Claude Opus 4 于 2025 年 5 月实现 2.9 倍加速,Opus 4.5 在 2025 年 11 月达 16.5 倍,Opus 4.6 在 2026 年 2 月达 30 倍,而 Claude Mythos Preview 在 2026 年 4 月更是达到 52 倍。相比之下,人类研究人员通常需 4 至 8 小时努力才能实现 4 倍加速。
此外,AI 系统已开始学习管理其他 AI 系统,如 Claude Code 和 OpenCode 等产品中,主代理可协调多个子代理处理大型项目。尽管克拉克认为目前 AI 尚无法产生真正革命性的新想法,但他强调,实现研发自动化未必需要这种创新能力,因为 AI 领域的发展在很大程度上依赖于规模日益扩大的实验以及数据与计算资源的投入。