机器之心highconfig v1
普林斯顿团队用 DeepSeek V4 构建定理证明系统,成本降至 Hilbert 的约 1/500
摘要与判断
普林斯顿大学团队发布形式化定理证明框架 Goedel-Architect,采用 DeepSeek-V4-Flash 作为核心模型,在 PutnamBench 上以 75.6% 通过率超过 Hilbert 的 70.0%,完成同等评测成本约 294 美元,仅为后者约 17 万美元的约 1/500。该结果说明开源模型配合新型智能体 pipeline 已能在高难数学证明任务上逼近甚至超越昂贵闭源方案,直接影响大模型能力评估与 AI 开发者对低成本推理架构的选择。
Topics
大模型公司新进展AI 开发者生态变化
引用和原文
Trace
- Raw Item
- raw_a820c1ea98e64f27
- Processed Item
- processed_932a87af16c4411d
- Source
- source_wechat_jiqizhixin
- LLM Logs
- llm_d5e5fe11edec415e
- Coze Loop
- 6bd520a1cf5920b87bf1b28691a3de64