【独家焦点】GPT-4“自我反思”后能力大增,测试表现提升 30%
【资料图】
OpenAI 最新的语言模型 GPT-4 不仅能够像人类一样生成各种文本,还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让 GPT-4 在多项难度较高的测试中,都取得了显著的进步,测试表现提升 30%。
GPT-4 是继 GPT、GPT-2 和 GPT-3 之后,OpenAI 推出的最先进的系统,也是目前最大的多模态模型(可以接受图像和文本输入,输出文本)。其利用深度学习技术,使用人工神经网络来模仿人类的写作。
研究人员诺亚 辛恩(Noah Shinn)和阿什温 戈平纳特(Ashwin Gopinath)在论文中写道:“我们开发了一种新颖的技术,让 AI 代理能够模拟人类的自我反思,并评估自己的表现。GPT-4 在完成各种测试的时候,会增加一些额外的步骤,让它能够自己设计测试来检查自己的答案,找出错误和不足之处,然后根据发现来修改自己的解决方案。”
在 HumanEval 编码测试中,GPT-4 使用自我反思环路,准确率从 67% 上升到 88%
GPT-4 可以通过设计和执行测试来批判其自身的性能,如 AlfWorld 测试结果所示,可以大大改善其性能
研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中,GPT-4 需要解决 164 个从未见过的 Python 编程问题,原本准确率为 67%,使用反思技术后,准确率提升到了 88%。在 Alfworld 测试中,AI 需要在各种不同的交互环境中,通过执行一些允许的操作,来做出决策和解决多步任务。使用反思技术后,GPT-4 的准确率从 73% 提高到了 97%,只有 4 个任务失败。在 HotPotQA 测试中,GPT-4 可以访问维基百科,并回答 100 个需要从多个支持文档中解析内容和推理的问题,原本准确率为 34%,使用反思技术后,准确率提高到了 54%。
这项研究表明,AI 问题的解决方案有时候是依赖 AI 本身。IT之家发现,这有点像生成对抗网络,这是一种让两个 AI 互相提高技能的方法,比如一个 AI 试图生成一些看起来像真实图片的图片,另一个 AI 试图分辨哪些是假的,哪些是真的。但在这种情况下,GPT 既是写作者又是编辑,通过自我反思来改进自己的输出质量。
标签:
相关文章
【独家焦点】GPT-4“自我反思”后能力大增,测试表现提升 30%
GPT-4“自我反思”后能力大增,测试表现提升30%,OpenAI最新的语言模型GPT-4不仅能够像人类一样生成各种文本,还能够设计和执行测试来评估
第一季度旅游市场“开门红” 具体情况详细内容介绍-焦点快看
新海南客户端、南海网、南国都市报4月22日消息(记者张野)近日,海南省旅文厅发布2022年第一季度旅游统计报告,万宁市累
卫星新闻丨“共富茶”跨越山海助力乡村振兴_全球速讯
从太空视角俯瞰这是地处山巅和海边的点点像素然而,这5年来数千万株茶苗跨越2000公里将山海情缘连接起来自2018年起浙江安吉黄杜村近3000万株捐
焦点快看:山西大同
山西大同:住房公积金贷款最高额度提至100万元金十期货4月4日讯,据山西省大同市政府官网消息,自4月1日起,大同市正式调整住房公积金个人住房
海贼王1080话情报:炸裂,传说的英雄,海军特殊部队与黑团开战
海贼王1080话情报已经更新,这一话的内容非常炸裂,详细情报已经出来,卡普带领的海军特殊部队与黑胡子海贼团正式开战,这一话全是讲述他们的
“成都天府新区将建 2200 米大楼”?官方回应|每日信息
近日,有不少自媒体账号发消息称, "成都天府新区要建海拔2200米勋章大楼 ",并配有夸张的视觉效果图片。该消息引发网民关注热议,不少网...
天天头条:co188土木在线论坛_co188
1、不能。2、这样会破坏雨水立管里面的压力平衡,甚至产生倒灌。3、建议楼主将末端试水装置接入卫生间的拖布池之类的,如果
【当前独家】邮报:派出球探现场考察,国际米兰希望在今夏引进圣马克西曼
据《邮报》的消息,国际米兰希望在今年夏天签下圣马克西曼。圣马克西曼在上周末的英超联赛给达洛特制造巨大的麻烦,他的表现给国际米兰派往圣
吉利数字代表的意思大全_吉利数字 天天消息
1、“0”。2、原生态、最具开发潜力。3、2、“1”。4、在中国传统文化中,“1”是最吉利的数字。5、2、3、4、5依
世界热议:外交部:坚决反对美方同台湾当局进行任何形式的官方往来
中国外交部今天(3日)举行例行记者会。点击看视频针对蔡英文“过境”窜美,外交部发言人毛宁表示,世界上只有一个中国,台湾是中国不可分...
全球快看:地基承载力检测方法规范_地基承载力检测频率规范
1、4 1 4地基加固工程,应在正式施工前进行实验段施工,论证设定的施工参数及加固效果。2、为验证加固效果所进行的载荷实
世界滚动:12月3日是什么星座_12月30日是什么星座
1、星座都是按阳历划分阳历12月30日摩羯座 摩羯座[12月22日-1月19日] (Capricorn)
全球观察:阿斯:最佳僚机!维尼修斯的43次助攻中有22次传给了本泽马
直播吧4月3日讯在昨天皇马6-0战胜巴拉多利德的比赛中,本泽马上演了帽子戏法,其中维尼修斯为他送上2次助攻,而他也凭借22次助攻本泽马进球成
年利率19.80%是几厘利息?一文教你搞懂利息换算
当今社会,人们都已经开始习惯使用贷款来解决资金问题,小到一件衣服,大到购车、购房,都可以申请按揭。那么,年利率19 80
电池级碳酸锂跌1.25万元/吨,均价报23.25万元/吨
上海钢联(300226)数据显示,今日电池级碳酸锂跌1 25万元 吨,均价报23 25万元 吨;工业级碳酸锂跌10000元 吨,均价报19 5万元 吨,氢氧化锂
极目锐评|爆料人晒张继科500万借款合同,事实真相不能是“一笔烂账”
极目锐评|爆料人晒张继科500万借款合同,事实真相不能是“一笔烂账”---连日来,“有关张继科因借钱欠债及传播女演员隐私视频”的传闻持续...
聚焦:全国人体器官捐献缅怀纪念活动在长沙举行:全国捐献志愿登记人数已超618万
2023年3月31日,由中国红十字会总会、国家卫生健康委员会指导,中国人体器官捐献管理中心主办,湖南省红十字会承办,湖南
惠誉:预计2022年华润置地杠杆率将升至29% 2023年将保持在合理水平 世界动态
惠誉估计,2022年华润置地以净债务与净物业资产之比衡量的杠杆率从2021年的23%升至29%,主要是由于销售疲软以及在投资物业和新购土地方面的持
UP主发起停更潮?B站内部人士回应事件简单介绍 全球热讯
1、4月2日,多位UP主密集公开宣布暂停更新。2、一位B站内部人士解释称,“停更潮”的说法并不准确,仅仅是部分UP因为个
北京市将鼓励企事业单位为职工提供托育服务
来源标题:鼓励企事业单位为职工提供托育服务《北京市托育服务体系建设三年行动方案(2023年—2025年)》日前发布。根据方案,到2025年,本市
平均月薪5万,最高10万!这家企业裁员90%,被裁员工却遭大厂疯抢
近日,Hulu北京启动裁员的消息刷爆互联网。脉脉创始人兼CEO林凡发文透露,消息传出后,大量猎头、大厂HR、AIGC创业
寄不出的家书②与君书 世界微速讯
纸笺寄哀思,垂泪悼忠魂。新中国成立以来,江苏公安机关有601名民警因公牺牲。2022年以来,全省共有11位民警因公牺牲,14位辅警因公殉职。为缅
热头条丨乐山市医疗保障基金监管集中宣传月活动启动
乐山新闻网站是由市委宣传部主管的全民所有制事业单位,乐山地区唯一有新闻发布资格的大型综合门户网站,是乐山继乐山日报、乐山电视台、乐山
天天微资讯!ug怎样导出cad_ug怎么导出cad图
1、首先我们双击CAD的快捷图标,然后将CAD这款软件打开,进入到该软件的操作界面2、打开CAD之后在绘图里找到圆形命令
环球今日报丨红糖生姜葱白汤晚上能喝吗?
红糖生姜葱白汤,晚上是可以喝的,但是需要注意,要适量的喝,不要多喝,如果过量饮用会导致发胖的情况,但是它能够起到很好的暖身效果,体内
回顾2023香港巴塞尔:奏响亚洲一级艺术市场最强音 世界滚动
3月21日至25日,巴塞尔艺术展香港展会(以下简称香港巴塞尔)携同32个国家及地区的合共177间画廊强势回归香港会议展览中心。作为“明星”级...