人类要小心了!OpenAI已全面评估AI对各行各业的工作替代 人类是否应该警惕ai发展 人类应该对ai保持警惕
创始人
2025-09-30 14:48:49

一项来自OpenAI的最新评估显示,AI在执行具有经济价值的工作任务方面正迅速追赶,甚至逼近人类专业人员的水平。

据报道,OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。

该研究覆盖了在美国国内生产总值(GDP)中占比较大的九个商业领域,涉及44个职业中的约1300项具体工作任务。结果显示,当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。

在GDPval-v0发布后,前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中,全面地评估了GDPval的研究过程和结果。

GDPval或成衡量AI经济价值的全新标尺

据文章介绍,GDPval基准测试涵盖了1230个专业任务,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业,每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。

Clark指出,这份清单几乎囊括了现代经济中所有关键的知识密集型岗位,表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。

文章还表示,该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。

为了模拟真实世界工作的复杂性,GDPval的任务并非简单的文本问答,而是带有参考文件和上下文,要求AI交付的成果也多种多样,包括文档、幻灯片、图表和电子表格等。

评估结果直接量化了AI的能力边界。数据显示,Claude Opus 4.1在与人类专家的比较中,取得了47.6%的“胜利或平局”率,排名第一。紧随其后的是GPT-5-high(38.8%)和o3 high(34.1%)。

这些数据表明,AI在处理复杂的专业知识工作时,其质量已达到甚至在某些情况下超过了经验丰富的人类。

Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。

公开资料显示,SWE-Bench于2024年11月推出,旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。

以下是Clark的博文节选,由AI工具辅助翻译:

评估世界经济;奇点经济学;以及瑞士主权AI
作者:Jack Clark
OpenAI构建了一个评估系统,对广泛经济的意义就如同SWE-Bench对代码的意义: …GDPval是一个非常好的基准测试,具有极其重要的意义…
OpenAI构建并发布了GDPval,这是一个制作精良的基准测试,用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言,GDPval对广泛的现实世界经济影响的意义,可能相当于SWE-Bench对编程影响的意义——这是一件大事!
它是什么:GDPval"衡量模型在直接来自现实世界的任务上的表现,这些任务涉及各行各业经验丰富专业人士的知识工作,为模型在经济价值任务上的表现提供更清晰的画面。"
该基准测试涵盖9个行业的44个职业,包括1,230个专业任务,"每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核"。数据集"包括每个职业的30个经过全面审核的任务(完整集),以及我们开源黄金集中每个职业的5个任务"。
该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。他们写道:"GDPval的任务不是简单的文本提示。它们带有参考文件和上下文,预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。"
"为了评估模型在GDPval任务上的表现,我们依靠专家'评分员'——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果(不知道哪个是AI生成的,哪个是人类生成的),并提供批评和排名。评分员随后对人类和AI交付成果进行排名,并将每个AI交付成果分类为'更好'、'同样好'或'不如'彼此,"作者写道。
结果:"我们发现今天最好的前沿模型已经接近行业专家产生的工作质量,"作者写道。Claude Opus 4.1排名第一,与人类工作相比的总体胜利或平局率为47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。
更快更便宜:更重要的是,"我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍,成本便宜约100倍。"
GDPval包含哪些类型的工作?
房地产和租赁业:礼宾员;物业、房地产和社区协会经理;房地产销售代理;房地产经纪人;柜台和租赁店员。
政府部门:娱乐工作者;合规官员;警察和侦探一线主管;行政服务经理;儿童、家庭和学校社会工作者。
制造业:机械工程师;工业工程师;采购员和采购代理;运输、接收和库存店员;生产和操作工人一线主管。
专业、科学和技术服务:软件开发人员;律师;会计师和审计师;计算机和信息系统经理;项目管理专家。
医疗保健和社会援助:注册护士;执业护士;医疗和健康服务经理;办公室和行政支持工人一线主管;医疗秘书和行政助理。
金融和保险:客户服务代表;金融和投资分析师;财务经理;个人理财顾问;证券、商品和金融服务销售代理。
零售贸易:药剂师;零售销售工人一线主管;总经理和运营经理;私人侦探和调查员。
批发贸易:销售经理;订单店员;非零售销售工人一线主管;批发和制造销售代表,不包括技术和科学产品;批发和制造销售代表,技术和科学产品。
信息业:音频和视频技术员;制片人和导演;新闻分析师、记者和新闻工作者;电影和视频编辑;编辑。
为什么这很重要——AI公司正在构建系统进入经济的每一个部分:此时我希望读者想象我站在华盛顿特区中心,举着一个巨大的标牌,上面写着:AI公司正在构建基准测试,旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了!
这并不正常!
我们正在通过生态有效的基准测试,对系统在极其广泛的行为范围内进行测试,这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的"生态经济生态位",我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快,它们在这些任务上将超越许多人类。然后会怎样?什么都不会发生?不!经济将发生极其奇异的变化!

相关内容

热门资讯

南京银行获第一大股东法巴增持,... 出品|达摩财经9月28日,南京银行(601009.SH)发布公告表示,法国巴黎银行(QFII)于9月...
英伟达涨3%创新高,蔚来一度涨... 北京时间9月30日晚,美股三大指数低开后下跌。英伟达盘中一度涨超3%,股价最高触及187.35美元,...
“双节”酒水观察:线下节庆红利... 本文来源:时代周报 作者:幸雯雯中秋国庆双节本是酒水消费的“黄金档”,但今年市场延续了往年的“冷静”...
英伟达,再创历史新高 英伟达飙... 9月30日,英伟达盘中一度涨近2%,股价最高触及184.94美元,再创历史新高。
“双节”酒水观察:线下节庆红利... 本文来源:时代周报 作者:幸雯雯中秋国庆双节本是酒水消费的“黄金档”,但今年市场延续了往年的“冷静”...
证监会最新发声!提高吹哨人奖励... 9月30日,中国证监会会同财政部修订完善了《证券期货违法违规行为举报工作暂行规定》(以下简称《举报规...
当我过上有钱人的生活 你过上了... 点击 “简七读财” ,发送消息“ 理财 ”小白轻松入门~晚上好,我是简七~最近有朋友提到《盗钥匙的...
中国女子认罪比特币史上最大骗局... 一桩震惊全球的加密货币犯罪案件近日在英国伦敦南华克皇家法院(Southwark Crown Cour...
达梦数据发生大宗交易 成交折价... 达梦数据9月26日大宗交易平台出现一笔成交,成交量20.00万股,成交金额4380.00万元,大宗交...
双林股份递表港交所 多名客户与... 每经记者|蔡鼎 每经编辑|文多 港交所官网9月24日显示,A股深交所创业板上市公司双林股份(SZ3...
万亿华夏基金换帅!中信证券总经... 《每日经济新闻》记者获悉,9月30日晚间,华夏基金发布公告,由中信证券总经理邹迎光出任该公司董事长,...
九龙坡首届“欢乐+”生活季上线... 9月30日,2025九龙坡首届“欢乐+”生活季发布会举行。为进一步浓厚消费氛围,激发消费活力,九龙坡...
合同签了半年无订单,海南华铁子... 海南华铁(603300.SH)子公司36.9亿元算力大单宣布告吹。9月30日晚间,海南华铁披露公告称...
广汽本田拟收购东风本田发动机 ... 新京报贝壳财经讯 9月30日,广汽集团发布公告,审议通过了《关于广汽本田股权投资相关事项的议案》,同...
太猛了!赛力斯,狂奔在天堂与深... 欢迎关注我的好朋友:闺蜜财经图片由AI生成撰文|杆姐&编辑|爱丽丝假期将至,赛力斯狂奔不止。2025...
易会满,被免职、撤销资格 易会... 据新华社, 政协第十四届全国委员会第四十一次主席会议30日下午在京召开。 会议审议通过关于免去易会满...
全球黄金开采行业规模最大IPO... 被超强台风“桦加沙”延期鸣锣数天后,9月30日,“矿茅”紫金矿业(601899.SH/2899.HK...
锐明技术:向香港联交所递交境外... 新京报贝壳财经讯 9月30日,锐明技术公告,公司已于2025年9月30日向香港联合交易所有限公司递交...
沈阳化工:公司股票将被实施其他... 新京报贝壳财经讯 9月30日,沈阳化工公告,公司于2025年9月30日收到中国证券监督管理委员会辽宁...
又现天价罚单!展翔被罚1.59... 21世纪经济报道记者 孙永乐近日,监管一连披露4则行政处罚决定书,剑指证券从业人员违规炒股行为。其中...
杉杉股份:重整投资人拟取得公司... 新京报贝壳财经讯 9月30日,杉杉股份公告,控股股东杉杉集团及其全资子公司朋泽贸易与江苏新扬子商贸有...
瑞穗证券(中国)获准设立 瑞穗... 新京报贝壳财经讯 9月30日,中国证监会核准设立瑞穗证券(中国)有限公司。瑞穗证券(中国)注册地为北...
爱婴室拟1900万元收购亏损公... 为降低采购成本等,“母婴零售第一股”爱婴室拟收购旗下自有品牌“多优”纸尿裤的生产供应商部分股权。9月...
锐明技术:向香港联交所递交境外... 新京报贝壳财经讯 9月30日,锐明技术公告,公司已于2025年9月30日向香港联合交易所有限公司递交...
又现天价罚单!展翔被罚1.59... 21世纪经济报道记者 孙永乐近日,监管一连披露4则行政处罚决定书,剑指证券从业人员违规炒股行为。其中...
黄金:9月涨近12%,月末获利... 【9月30日黄金月末收官,获利了结操作施压金价】9月30日消息,财经分析师称,黄金触及3,871美元...
股票行情快报:戎美股份(301... 证券之星消息,截至2025年9月30日收盘,戎美股份(301088)报收于13.71元,下跌1.22...
新雷能股票连续三个交易日涨幅偏... 雷达财经 文|杨洋 编|李亦辉 9月30日,北京新雷能科技股份有限公司(证券简称:新雷能,证券代码:...
比特币多头回归:BTC涨至12... 要点: 更加明确的数字资产监管,尤其是本周备受关注的SEC与CFTC联合圆桌会议,有望增强投资者...
用技术践行金融普惠,度小满积极... 8月中旬,财政部等相关部门发布了《个人消费贷款财政贴息政策实施方案》。据悉,这是中央财政首次对个人消...