GPT-4“自我反思”后能力大增，测试表现提升 30%

2023-04-04 11:31:56 来源： IT之家

(资料图片仅供参考)

4月4日消息，OpenAI最新的语言模型GPT-4不仅能够像人类一样生成各种文本，还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让GPT-4在多项难度较高的测试中，都取得了显著的进步，测试表现提升30%。

GPT-4是继GPT、GPT-2和GPT-3之后，OpenAI推出的最先进的系统，也是目前最大的多模态模型(可以接受图像和文本输入，输出文本)。其利用深度学习技术，使用人工神经网络来模仿人类的写作。

研究人员诺亚辛恩(Noah Shinn)和阿什温戈平纳特(Ashwin Gopinath)在论文中写道：“我们开发了一种新颖的技术，让AI代理能够模拟人类的自我反思，并评估自己的表现。GPT-4在完成各种测试的时候，会增加一些额外的步骤，让它能够自己设计测试来检查自己的答案，找出错误和不足之处，然后根据发现来修改自己的解决方案。”

在 HumanEval编码测试中，GPT-4使用自我反思环路，准确率从67%上升到88%

GPT-4可以通过设计和执行测试来批判其自身的性能，如AlfWorld测试结果所示，可以大大改善其性能

研究团队使用这种技术对GPT-4进行了几种不同的性能测试。在HumanEval测试中，GPT-4需要解决164个从未见过的Python编程问题，原本准确率为67%，使用反思技术后，准确率提升到了88%。在Alfworld测试中，AI需要在各种不同的交互环境中，通过执行一些允许的操作，来做出决策和解决多步任务。使用反思技术后，GPT-4的准确率从73%提高到了97%，只有4个任务失败。在HotPotQA测试中，GPT-4可以访问维基百科，并回答100个需要从多个支持文档中解析内容和推理的问题，原本准确率为34%，使用反思技术后，准确率提高到了54%。

这项研究表明，AI问题的解决方案有时候是依赖AI本身。发现，这有点像生成对抗网络，这是一种让两个AI互相提高技能的方法，比如一个AI试图生成一些看起来像真实图片的图片，另一个AI试图分辨哪些是假的，哪些是真的。但在这种情况下，GPT既是写作者又是编辑，通过自我反思来改进自己的输出质量。

关键词：

精选导读

金融支持房地产再“祭”大招 “金融16条”如何支持房地产

金融支持房地产再祭大招。近两日，一份由央行和银保监会联合发布的《关于做好当前金融支持房地产市场平稳健康发展工作的通知》(以下简称《

发布时间： 2022-11-15 10:26

要闻 2022-11-15

新能源汽车行业景气度高企电动化进程正在加快

外资车企在中国市场的投资步伐进一步加快。宝马集团日前宣布，其沈阳生产基地将进行动力电池生产的大规模扩建，投资总额约100亿元。业内人

发布时间： 2022-11-15 10:12

要闻 2022-11-15

地产主题基金净值集体回升基金经理持仓有增有减

近日，地产板块表现亮眼，推动房地产行业主题基金净值大幅回升，数十只主题基金11月以来的净值涨幅超过10%。从基金三季报来看，部分基金经

发布时间： 2022-11-15 10:06

要闻 2022-11-15

数字经济时代下的云计算发展趋势云计算已经成为数字经济时

云计算就是网络上的计算，它将网络中的各种计算资源转化成云计算服务，并为用户提供按需定制的服务。由于云计算具有集约建设、资源共享、规

发布时间： 2022-11-15 10:00

要闻 2022-11-15

台风“黑格比”对我国近海的影响趋于结束，中央气象台停止对

据中央气象台网站消息，今年第4号台风黑格比已于昨天(5日)晚上11点钟由热带风暴级减弱为热带低压，并于今天(6日)凌晨3点钟前后在朝鲜黄海南

发布时间： 2020-08-06 14:46

要闻 2020-08-06

热点推荐

GPT-4“自我反思”后能力大增，测试表现提升 30%

IT之家4月4日消息，OpenAI最新的语言模型GPT-4不仅能够像人类一样生成各种文本，还能够设计和执行测试来评估和改进自己的表现。这种“反思”技

发布时间： 2023-04-04 11:31

国内 2023-04-04

最新：logstash增量同步MySQL关于sql_last_value取值失败的问题

https: www elastic co guide en logstash 7 17 plugins-inputs-jdbc html plugins-i

发布时间： 2023-04-04 10:33

国内 2023-04-04

全球热文：酒钢成功研发光热发电用耐高温熔盐不锈钢

”刘天增说

发布时间： 2023-04-04 10:06

国内 2023-04-04

全球热门:官宣！江苏高校新增247个学位点

近日江苏省学位委员会、省教育厅公布《2023年度新增学士学位授权专业名单》同意南京大学等57所高校的247个专业为学士学

发布时间： 2023-04-04 09:20

国内 2023-04-04

世界快资讯丨培训实施内容有哪些_培训实施方案包括哪些内容

今天小编肥嘟来为大家解答以上的问题。培训实施内容有哪些，培训实施方案包括哪些内容相信很多小伙伴还不知道,现在让我们一起来看看吧！1、具

发布时间： 2023-04-04 08:13

国内 2023-04-04

总是让我挥之不去是什么歌_挥之不去忘之不却是什么意思

解答：1、我忘不了，但这意味着唯一一个非常在乎的人。2、我无法摆脱它。是西汉历史学家司马迁《史记》年的。3、《史记》是二

发布时间： 2023-04-04 06:56

国内 2023-04-04

特斯拉赛博充家庭充电服务包售5500元

[本站资讯]日前，特斯拉宣布推出家庭充电服务包“赛博充Cybervault”，其将是专为中国市场量身打造的产品，重量为13千克，造型采用特斯拉Cyber

发布时间： 2023-04-04 06:23

汽车 2023-04-04

全球快资讯丨百人口碑评新车：有颜有料的腾势D9

[本站资讯]各位网友大家好，第八十四期《百人口碑评新车》系列文章与大家见面了。本期我们为大家带来的是时下很火销量不错的一看中国品牌新能

发布时间： 2023-04-04 06:21

汽车 2023-04-04

全球看点：市动物疫控中心“三区”人才帮扶团队积极发挥技术

【来源：天水市畜牧医局_畜牧要闻】天水市动物疫病预防控制中心以“三抓三促”行动为抓手，利用春季动物集中免疫工作开展之际，积极组织“三区

发布时间： 2023-04-04 05:00

国内 2023-04-04

全球今热点：308家机构扎堆调研！千亿科技巨头火了

根据星矿数据，上周（3月27日-3月31日），机构共调研了86家上市公司，从调研板块来看，机构主要聚焦于军工、央企改革、

发布时间： 2023-04-04 01:14

国内 2023-04-04

全球播报:新款Cayenne等保时捷上海车展参展阵容

[本站资讯]日前，保时捷官方公布了即将于4月开幕的上海车展参展阵容，其中包括新款Cayenne全球首秀，Vision357概念车中国首秀，全新911Dakar以

发布时间： 2023-04-03 22:21

汽车 2023-04-03

2020年文科一本分数线_2020年文科分数线

1、211在甘肃只有兰州大学一所。2、2020年文科省控线520分，实录最低分579。以上就是【2020年文科一本分数线

发布时间： 2023-04-03 22:22

国内 2023-04-03

天天快看：圆年轻人跑车梦！哪吒GT将于明日首发

[本站资讯]哪吒GT将于明日（4月4日）首发亮相，新车为一款双门四座电动跑车，拥有相当出众的外观设计，并将于2023年上半年上市交付。大家觉得

发布时间： 2023-04-03 21:20

汽车 2023-04-03

【天天聚看点】上海车展预售福田火星7/火星9官图发布

[本站资讯]日前，福田汽车全新皮卡火星系列官图发布。火星系列皮卡包含火星7和火星9两款车型，均基于福田全尺寸皮卡平台开发，动力系统可选2 0

发布时间： 2023-04-03 21:19

汽车 2023-04-03

资讯：新款T-ROC探歌或将于4月上海车展上市

[本站资讯]日前，我们从相关渠道获悉，一汽-大众新款T-ROC探歌有望于4月开幕的2023上海车展期间正式上市。新车在外观内饰、动力方面都将有全面

发布时间： 2023-04-03 21:11

汽车 2023-04-03

环球视讯！6.58万起五菱星辰/星驰新增车型上市

[本站新车上市]日前，我们从官方获悉，五菱星辰星驰各自新增一款车型，其中五菱星辰新增1 5T手动星悦版，售价为6 88万；五菱星驰新增1 5L自动

发布时间： 2023-04-03 21:17

汽车 2023-04-03

全球资讯：售12.79万起长安欧尚Z6 2.0T车型上市

[本站新车上市]4月3日，长安欧尚Z62 0T车型正式上市，新车共推出2款车型，售价区间为12 79-13 79万元，尝鲜价12 09-13 09万元。新车将搭载2 0T

发布时间： 2023-04-03 21:15

汽车 2023-04-03

每日热门：爵士乐×创意灵感，赖声川大讲堂再次来到苏州！

今天（4月2日）下午“赖声川大讲堂”亮相苏州文化艺术中心开启一场关于音乐与创意灵感的碰撞之旅活动由苏州工业园区宣传和统战部（文体旅游局

发布时间： 2023-04-03 21:00

国内 2023-04-03

当前视讯！新气象新速度新活力具体详细内容是什么

新气象新速度新活力今天的热度非常高，现在也是在热搜榜上了，那么具体的新气象新速度新活力是什么情况呢，大家可以一起

发布时间： 2023-04-03 19:51

国内 2023-04-03

临时牌照违章会不会被拍到_临时牌照

1、到车管所办理临时牌照时，先要根据自身信息填写一份临时车牌申请表。2、2、填写完成后，工作人员会给一张排队号码牌，等排

发布时间： 2023-04-03 18:58

国内 2023-04-03

GPT-4“自我反思”后能力大增，测试表现提升 30%

精选 导读

热点 推荐

每日热点

精选导读

热点推荐