首页行业资讯资讯详情

OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平

2025/09/26 16:11

    OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平
    


    


    OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平
    

导读目录


    

        
  • 事件概述


  •     
  • GDPval测试介绍


  •     
  • AI模型表现对比


  •     
  • 测试范围与局限性


  •     
  • 专家评论与解读


  •     
  • 编辑总结


  •     
  • 常见问题解答


  •     

    

事件概述


    

根据 www.Todayusstock.com 报道,当地时间周四(9月25日),OpenAI发布了名为GDPval的新基准测试,用于比较其AI模型与各行业专业人士在经济价值工作上的表现。此次测试是OpenAI评估通用人工智能(AGI)能力的重要尝试,旨在衡量AI系统距离在经济价值岗位超越人类的程度。


    

GDPval测试介绍


    

GDPval基于美国GDP贡献最大的九个行业,涵盖医疗、金融、制造业和政府等领域,涉及44种职业,从软件工程师到护士,再到记者。测试通过邀请资深专业人士对比AI生成报告与人类报告,选出更优成果,以此评估AI在实际工作任务中的表现。


    

在首个版本GDPval-v0中,专业人士需要对比AI生成的报告与行业专家成果,并计算AI在全部44个职业中胜出的平均比例。


    

AI模型表现对比


    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
模型胜出或持平行业专家比例说明
GPT-5-high40.6%高算力版本GPT-5,接近行业专家水平
Claude Opus 4.149%得分略高,部分因生成更美观图表

    

OpenAI指出,Claude Opus 4.1得分较高主要原因在于其倾向于生成更易读和美观的图表,而非在核心分析性能上完全优于GPT-5。


    

测试范围与局限性


    

需要说明的是,GDPval-v0仅测试了提交研究报告的能力,而大多数职业的实际工作远不止这一部分。OpenAI承认测试覆盖有限,并计划未来开发更全面的测试体系,包括更多行业和交互式工作流程,以更准确衡量AI对经济价值岗位的潜在影响。


    

专家评论与解读


    

OpenAI首席经济学家Aaron Chatterji表示,GDPval测试表明AI模型能够节省人类在某些任务上的时间,使其专注于更有价值的工作。他指出:“随着模型能力提升,人们可以把部分工作交给模型,去完成潜在更高价值的任务。”


    

OpenAI评估负责人Tejal Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%,而GPT-5成绩几乎提高三倍,显示AI能力正快速接近行业专家水平,并预计这一趋势将继续。


    

编辑总结


    

OpenAI通过GDPval基准测试对AI在经济价值工作中的能力进行量化评估。结果显示,GPT-5和Claude Opus 4.1在多个职业中已接近或持平行业专家水平,尤其在生成分析报告方面展现出显著潜力。虽然测试覆盖有限,但其进展表明AI在未来可能成为人类工作的重要辅助工具,提高效率和生产力。投资者和企业应关注AI在特定岗位和任务中的实际应用能力,而非短期完全替代的预测。


    

常见问题解答


    

    

问1:GDPval测试的主要目的是什么?答:GDPval旨在评估AI模型在经济价值岗位上的表现,衡量其是否能达到或超越行业专业人士的水平,是OpenAI开发AGI的重要参考。


    

    

    

问2:GPT-5和Claude Opus 4.1的表现差异是什么?答:GPT-5-high在44种职业任务中胜出或持平比例为40.6%,Claude Opus 4.1为49%。Claude得分略高主要因生成更美观图表,而非核心分析能力显著优于GPT-5。


    

    

    

问3:GDPval测试涵盖哪些行业和职业?答:测试基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业、政府等,共涵盖44种职业,从软件工程师到护士及记者。


    

    

    

问4:GDPval测试是否能代表AI取代人类工作?答:不能。当前测试仅覆盖部分任务,如报告生成,无法全面衡量职业工作全流程。AI更多是作为辅助工具,节省人类时间,提高效率。


    

    

    

问5:AI能力提升对工作效率的意义是什么?答:AI可承担重复或标准化任务,使人类专注于更有价值的工作,从而提高整体生产力。随着能力提升,AI可覆盖更多复杂任务,为企业和经济创造潜在更高价值。


    

    

来源:今日美股网


    

1. 欢迎转载,转载时请标明来源为FX168财经。商业性转载需事先获得授权,请发邮件至:media@fx168group.com。

2. 所有内容仅供参考,不代表FX168财经立场。我们提供的交易数据及资讯等不构成投资建议和依据,据此操作风险自负。

相关文章

  • 英伟达CEO黄仁勋出售3800万美元股票 股价下跌引关注
    2025/09/09 16:12
  • 美联储提名米兰房贷状况曝光 类似库克争议引关注
    2025/09/09 16:12
  • 纳斯达克推进代币化证券交易 引领美国主要交易所创新潮流
    2025/09/09 16:12
  • 美国7月农产品贸易逆差创新高 特朗普缩减逆差承诺面临挑战
    2025/09/09 16:12
  • 微软签订近194亿美元协议 获Nebius AI云计算能力
    2025/09/09 16:12

最新文章

【美股收评】逆势上涨!美国政府关门未阻市场乐观情绪,标普500创盘中新高

2025/10/01 20:42

文化发展基金携手Merak资本签署协议 设立沙特首个时尚投资基金,总规模三亿里亚尔

2025/10/01 20:40

【原油收评】油价“三连跌”创16周新低!美国政府关门与OPEC+增产预期加剧市场担忧

2025/10/01 19:45

【欧股收评】欧洲STOXX 600创历史新高,医药股飙升领涨

2025/10/01 19:33

路透深度:华尔街应对“数据真空”:美国政府关门或扰乱美联储决策路径

2025/10/01 18:53

Axi 宣布首席商务官 Louis Cooper 退休

2025/10/01 17:30

加拿大股市狂飙 跑赢美股近8% 或创自1990年以来最强表现

2025/10/01 16:16

耐克一季度营收意外回升,利润超预期但挑战仍存

2025/10/01 16:13

美联储古尔斯比警示关税与政府停摆对美国经济影响解析

2025/10/01 16:10

美国政府关门正式启动 参议院僵局加剧财政不确定性 大量联邦雇员面临停薪风险

2025/10/01 16:10

热门文章

【现货黄金】操作策略参考-20240111

2024/01/11 02:29

【美股收评】逆势上涨!美国政府关门未阻市场乐观情绪,标普500创盘中新高

2025/10/01 20:42

文化发展基金携手Merak资本签署协议 设立沙特首个时尚投资基金,总规模三亿里亚尔

2025/10/01 20:40

【原油收评】油价“三连跌”创16周新低!美国政府关门与OPEC+增产预期加剧市场担忧

2025/10/01 19:45

【欧股收评】欧洲STOXX 600创历史新高,医药股飙升领涨

2025/10/01 19:33

路透深度:华尔街应对“数据真空”:美国政府关门或扰乱美联储决策路径

2025/10/01 18:53

Axi 宣布首席商务官 Louis Cooper 退休

2025/10/01 17:30

加拿大股市狂飙 跑赢美股近8% 或创自1990年以来最强表现

2025/10/01 16:16

耐克一季度营收意外回升,利润超预期但挑战仍存

2025/10/01 16:13

美联储古尔斯比警示关税与政府停摆对美国经济影响解析

2025/10/01 16:10
在线客服开设账户官方app
回到顶部