OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平

2025-09-27 00:10:57

今日美股网

媒体

关注

获赞

粉丝

喜欢

— 分享 —

摘要： OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平导读目录事件概述GDPval测试介绍AI模型表现对比测试范围与局限性专家评论与解读编辑总结常见问题解答事件概述根据 www.Todayusstock.com 报道，当地时间周四（9月25日），OpenAI发布了名为GDPval的新基准测试，用于比较其AI模型与各行业专...

OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平

导读目录

事件概述
GDPval测试介绍
AI模型表现对比
测试范围与局限性
专家评论与解读
编辑总结
常见问题解答

事件概述

根据 www.Todayusstock.com 报道，当地时间周四（9月25日），OpenAI发布了名为GDPval的新基准测试，用于比较其AI模型与各行业专业人士在经济价值工作上的表现。此次测试是OpenAI评估通用人工智能(AGI)能力的重要尝试，旨在衡量AI系统距离在经济价值岗位超越人类的程度。

GDPval测试介绍

GDPval基于美国GDP贡献最大的九个行业，涵盖医疗、金融、制造业和政府等领域，涉及44种职业，从软件工程师到护士，再到记者。测试通过邀请资深专业人士对比AI生成报告与人类报告，选出更优成果，以此评估AI在实际工作任务中的表现。

在首个版本GDPval-v0中，专业人士需要对比AI生成的报告与行业专家成果，并计算AI在全部44个职业中胜出的平均比例。

AI模型表现对比

模型	胜出或持平行业专家比例	说明
GPT-5-high	40.6%	高算力版本GPT-5，接近行业专家水平
Claude Opus 4.1	49%	得分略高，部分因生成更美观图表

OpenAI指出，Claude Opus 4.1得分较高主要原因在于其倾向于生成更易读和美观的图表，而非在核心分析性能上完全优于GPT-5。

测试范围与局限性

需要说明的是，GDPval-v0仅测试了提交研究报告的能力，而大多数职业的实际工作远不止这一部分。OpenAI承认测试覆盖有限，并计划未来开发更全面的测试体系，包括更多行业和交互式工作流程，以更准确衡量AI对经济价值岗位的潜在影响。

专家评论与解读

OpenAI首席经济学家Aaron Chatterji表示，GDPval测试表明AI模型能够节省人类在某些任务上的时间，使其专注于更有价值的工作。他指出：“随着模型能力提升，人们可以把部分工作交给模型，去完成潜在更高价值的任务。”

OpenAI评估负责人Tejal Patwardhan指出，约15个月前发布的GPT-4o模型得分仅为13.7%，而GPT-5成绩几乎提高三倍，显示AI能力正快速接近行业专家水平，并预计这一趋势将继续。

编辑总结

OpenAI通过GDPval基准测试对AI在经济价值工作中的能力进行量化评估。结果显示，GPT-5和Claude Opus 4.1在多个职业中已接近或持平行业专家水平，尤其在生成分析报告方面展现出显著潜力。虽然测试覆盖有限，但其进展表明AI在未来可能成为人类工作的重要辅助工具，提高效率和生产力。投资者和企业应关注AI在特定岗位和任务中的实际应用能力，而非短期完全替代的预测。

常见问题解答