机器之心highconfig v1

普林斯顿团队用 DeepSeek V4 构建定理证明系统,成本降至 Hilbert 的约 1/500

摘要与判断

普林斯顿大学团队发布形式化定理证明框架 Goedel-Architect,采用 DeepSeek-V4-Flash 作为核心模型,在 PutnamBench 上以 75.6% 通过率超过 Hilbert 的 70.0%,完成同等评测成本约 294 美元,仅为后者约 17 万美元的约 1/500。该结果说明开源模型配合新型智能体 pipeline 已能在高难数学证明任务上逼近甚至超越昂贵闭源方案,直接影响大模型能力评估与 AI 开发者对低成本推理架构的选择。

Topics

大模型公司新进展AI 开发者生态变化

引用和原文

Trace

Raw Item
raw_a820c1ea98e64f27
Processed Item
processed_932a87af16c4411d
Source
source_wechat_jiqizhixin
LLM Logs
llm_d5e5fe11edec415e
Coze Loop
6bd520a1cf5920b87bf1b28691a3de64