GPT-4震撼来袭，ChatGPT的8倍，考试能力超过90%人类-环球快讯

北京时间3月15日早间，人工智能初创公司OpenAI正式公布其最新一代人工智能语言模型GPT-4。

GPT-4是一个超大的多模态模型，升级后其可以接受图像输入并理解图像内容，并且可接受的文字输入长度也增加到3.2万个token（约2.4万单词）。

虽然它在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上它已经和人类水平表现相当。

(资料图片仅供参考)

OpenAI表示GPT-4的诞生，是OpenAI努力扩展深度学习的最新里程碑。

据了解，最新的GPT-4对月订阅费20美元的ChatGPT Plus的用户开放使用，同时也会纳入到微软的Bing聊天机器人中。

似乎为了让对手们望尘莫及，OpenAI还放出了一系列大招，包括技术报告，SystemCard，以及API。

不管从更新速度还是质量，看来生成式AI这场战役，OpenAI志在必得。

史上最强多模态大模型，

GPT-4当之无愧

在视觉输入方面，GPT-4可以接受文本和图像提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。

具体来说，它在给定由散布的文本和图像组成的输入的情况下生成文本输出（自然语言、代码等）。即在包括带有文本和照片的文档、图表或屏幕截图等一系列领域，GPT-4展示了与纯文本输入类似的功能。此外，它还可以通过为纯文本语言模型开发的测试时间技术得到增强，包括少量镜头和思维链提示。一起通过具体案例来感受下。

首先是强大的图片理解能力。

更进一步，GPT-4可以理解图表中数据的含义，并做进一步计算。

甚至可以直接把论文截图发给它，GPT-4给出对整篇论文的总结摘要。

虽然强大，但GPT-4仍有局限性

尽管功能强大，但GPT-4与早期的GPT模型具有相似的局限性。通俗的来说就是会胡说八道。

虽然这仍然是一个现实的问题，但GPT-4相对于以前的模型（它们本身在每次迭代中都在改进）已经显著减轻了幻觉问题。在OpenAI内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5高40%。

在九类内部对抗性设计的事实评估中，OpenAI将GPT-4（绿色）与前三个ChatGPT版本进行了比较。所有主题都有显着的收获。准确度为1.0意味着模型的答案被判断为与评估中所有问题的人类理想回答一致。

OpenAI在TruthfulQA等外部基准测试方面取得了进展，它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案配对，这些答案在统计上很有吸引力，如下图所示。

GPT-4基本模型在此任务上仅比GPT-3.5略好；然而，在RLHF后训练（应用与GPT-3.5相同的过程）之后，存在很大差距。比如下面的例子。

该模型的输出可能存在各种偏差——OpenAI在这些方面取得了进展，但还有更多工作要做。

根据OpenAI最近的博客文章，其目标是让所构建的AI系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内进行定制，并就这些范围应该是什么获得公众意见。

GPT-4普遍缺乏对绝大部分数据中断后（2021年9月）发生的事件的了解，并且不从其经验中吸取教训。它有时会犯简单的推理错误，这些错误似乎与跨多个领域的能力不相称，或者在接受用户明显的虚假陈述时过于轻信。有时它会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞。

GPT-4也可能自信地在其预测中犯错，在可能出错时不注意仔细检查工作。有趣的是，基础预训练模型经过高度校准（其对答案的预测置信度通常与正确概率相匹配）。然而，通过OpenAI目前的训练后过程，校准减少了。

左图是预训练GPT-4模型在MMLU子集上的校准图。该模型对其预测的置信度与正确概率密切相关。虚线对角线代表完美的校准。

而右图是在同一MMLU子集上训练后的PPOGPT-4模型的校准图。OpenAI当前的过程对校准造成了很大的伤害。

不停迭代是GPT-4缓解风险的良好措施

OpenAI一直在对GPT-4进行迭代，以使其从训练开始就更安全、更一致，工作包括选择和过滤预训练数据、评估和专家参与、模型安全性改进以及监控和执行。

GPT-4会带来与之前模型类似的风险，例如生成有害建议、错误代码或不准确信息。但是，GPT-4的附加功能会带来新的风险面。为了了解这些风险的程度，OpenAI聘请了50多位来自AI对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。

他们的发现特别使OpenAI能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于OpenAI对模型的缓解和改进；例如，OpenAI收集了额外的数据来提高GPT-4拒绝有关如何合成危险化学品的请求的能力。

GPT-4在RLHF训练期间加入了一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害输出（如OpenAI的使用指南所定义）。奖励由GPT-4零样本分类器提供，该分类器根据安全相关提示判断安全边界和完成方式。

为了防止模型拒绝有效请求，OpenAI从各种来源（例如，标记的生产数据、人类红队、模型生成的提示）收集了多样化的数据集，并在两者上应用安全奖励信号（具有正值或负值）允许和不允许的类别。

与GPT-3.5相比，OpenAI的缓解措施显着改善了GPT-4的许多安全特性。与GPT-3.5相比，OpenAI已将模型响应不允许内容请求的倾向降低了82%，并且GPT-4根据OpenAI的政策响应敏感请求（例如，医疗建议和自我伤害）的频率提高了29%。

总的来说，OpenAI的模型级干预增加了引发不良行为的难度，但这样做仍然是可能的。此外，仍然存在生成违反OpenAI使用指南的内容的“越狱”。随着人工智能系统“每个代币的风险”增加，在这些干预中实现极高的可靠性将变得至关重要；目前，重要的是用部署时安全技术（如监控滥用）来补充这些限制。

GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI正在与外部研究人员合作，以改进OpenAI理解和评估潜在影响的方式，以及对未来系统中可能出现的危险功能进行评估。OpenAI很快将分享更多关于GPT-4和其他人工智能系统的潜在社会和经济影响的想法。

强化学习和人工反馈，

是训练GPT-4利器

与以前的GPT模型一样，GPT-4基础模型经过训练可以预测文档中的下一个单词，并且使用公开可用的数据（例如互联网数据）以及OpenAI已获得许可的数据进行训练。这些数据是网络规模的数据语料库，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，并代表各种各样的意识形态和想法。

因此，当出现问题提示时，基本模型可以以多种可能与用户意图相去甚远的方式做出响应。为了使其与护栏内的用户意图保持一致，OpenAI使用强化学习和人工反馈(RLHF )来微调模型的行为。

值得注意的是，该模型的能力似乎主要来自预训练过程——RLHF不会提高考试成绩（如果不积极努力，它实际上会降低考试成绩）。但是模型的转向来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题。

可预测的扩展带来的可能性

GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是，对于像GPT-4这样的非常大的训练运行，进行广泛的特定于模型的调整是不可行的。

OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性，OpenAI通过从使用相同方法训练但使用10,000倍更少计算的模型进行推断，准确预测了GPT-4在OpenAI内部代码库（不是训练集的一部分）上的最终损失：

现在OpenAI可以准确地预测OpenAI在训练期间优化的指标（损失），OpenAI开始开发方法来预测更多可解释的指标。

例如，OpenAI成功预测了HumanEval数据集子集的通过率，从计算量减少1,000倍的模型推断：

不过有些能力仍然难以预测。例如，InverseScalingPrize是一项竞赛，目的是寻找一个随着模型计算量的增加而变得更糟的指标，而后见之明的忽视是赢家之一。

就像最近的另一个结果一样， GPT-4扭转了趋势：

OpenAI认为，准确预测未来的机器学习能力是安全的重要组成部分，但与其潜在影响相比，它并没有得到足够的重视（尽管OpenAI受到多家机构的努力的鼓舞）。

OpenAI正在加大力度开发方法，为社会提供更好的未来系统预期指导，OpenAI希望这成为该领域的共同目标。

有意思的是，就在GPT-4发布前，谷歌方面为了迎战微软，宣布将一系列即将推出的AIGC功能，应用到自家产品中，而原定的发布日是本周四，也就是明天。

但timing is everything，微软这次很明显的杀了谷歌一个措手不及。面对强大的GPT-4，此前有过一次翻车经验的谷歌能否应战，十分值得期待。

推荐内容

GPT-4震撼来袭，ChatGPT的8倍，考试能力超过90%人类-环球快讯

每日报道：网传成都市民网上举报：某会馆有40多个女技师卖淫，衣着十分暴露

美国州长表示中国有个长达2000年的计划，网友：这些人怎么当选的_今日看点

国乒大逆转：张瑞决胜局打爆日本新星 吃黄牌后暴走平野摊手苦笑

花呗里的钱能借出来吗?花呗还不上会怎么处置?

在手机上注册网贷单没有申请会上征信吗?在手机上贷款靠谱吗?

设计进化：2023中国设计智造大奖全球启动征集

微粒贷有逾期会不会上门催收?网捷贷逾期被起诉会有什么影响?

郭台铭娇妻晒豪宅，意外曝光神秘长子！能干的他为何接班落空？

百度“ChatGPT”即将发布，网传将全员值班：若出意外，随时顶上

GPT-4，OpenAI的断崖式领先，人类的专属技能不多了｜甲子光年

要点脸吧！割网友们韭菜，吃相太难看了！_环球今头条

GPT-4重磅发布！ChatGPT炸裂升级，直接能考上哈佛，体验后我慌了_全球观热点

借呗的额度降低是什么原因造成的?借呗家装额度有时间限制吗?

花呗分期指的是什么?花呗办理分期后如何提前还款?

备用金最晚几点还款?支付宝备用金还款步骤是什么?

花呗关闭后再开通额度会有变化吗?如何开通花呗?

每天几点更新支付宝基金收益?支付宝基金收益是怎么计算的?

关闭花呗的步骤是什么?花呗最晚还款日是几号?

新物种诞生，海棠湾薏米即将成为三亚城市新名片

宁波地铁小洋江站将实现三线换乘 有什么特别之处？

总投资5.6亿元 宁海下洋涂万亩旱地将大变样

OpenAI发布GPT-4：能识图能算税，ChatGPT摆脱Chat，再次进化 简讯

洪都拉斯欲与中国建交 今日热搜

61岁创造历史的杨紫琼，她赢的不只是奥斯卡影后-世界视点

环球微速讯：GPT-4 震撼发布，能读图，考高分，训练更高效

美国宇航局计划开发航天器摧毁国际空间站_每日热点

微动态丨北京东坝执法队开展3.15法治宣传活动，现场解答法律问题

联合丽格诞生“双美”模式：北京首玺丽格医美旗下“首玺丽斯SPA”开业

再见德赫亚！曼联要买2门将！C罗国家队友或加盟！1人要价4千万

三上悠亚宣布引退，恋爱对象疑似中国上海男人，已相恋6年

PC玩家成大冤种？这些游戏优化过于差，连最贵的显卡都跑不动？ 世界速看

字母哥又一争议动作！肘击打掉太阳悍将牙齿 伸手进嘴巴掏出碎片 全球滚动

谁敢相信你？硅谷银行新总裁敦促储户把转走的存款转回来

捍卫第九！湖人击败鹈鹕，浓眉哥战旧主35+17，英格拉姆22分|环球快资讯

环球速递！湖人一战刷爆纪录！最多领先40分下半场断电：浓眉35+17詹皇耍宝

西部最新卡位局势：湖人赢球反跌至第十 三队战绩持平雷霆升第八

16000分里程碑！字母哥连超3名宿+同届首人 率雄鹿高居联盟第一|全球今热点

动动手指就能申领，北京海关试点检验检疫证书“云签发”

创新范式构筑新教师引育体系

两会丨只会解题难出科学家，倪闽景委员：科创教育需手脑并用

从0到1，4位高校书记校长谈创新｜两会@教育·声音 每日短讯

三农科普|“小本经营者”如何依法经销种子_全球最新

GPT-4正式推出，能使用几乎所有编程语言，将陆续对开发者开放API，已接入微软New Bing收费版

天天要闻：ChatGPT-4发布，全方位碾压老版本，甚至能懂网梗表情包为啥好笑

揭秘“水军”机器人大军：用现代的技术，干一些下三滥的事情 实时

网传商家强买强卖？店主：试衣服半天不买，逗我玩呢！_当前热点

北京丰台建立“医保扶农”工程，让百姓“足不出村看名医”

环球通讯！北京丽泽城市航站楼2025年建成，将实现5条地铁线换乘

玉渊潭公园赏樱花提醒：年票月票游客也要预约入园

一条皮带可以用多久?皮带用多久需要更换一次?

在春游中研学 在研学中成长-全球看点

橄榄菜属于哪的特产?橄榄菜有亚硝酸盐吗?

什么是霸王条款?霸王条款有效吗?

是谁发明的圆周率?圆周率是如何算出来的?

买螃蟹时需要注意什么?如何区分公螃蟹和母螃蟹?

什么时候吃螃蟹比较好?螃蟹是买公的好还是母的好?

湖南湘江新区真人桥小学：多措并举破解乡村小规模学校发展瓶颈-报道

中国移动杨杰：建议中小学普及编程教育 课程从元宇宙等产业入手_热点评

吃素要如何补充蛋白质?吃素是不是只能吃蔬菜?

火锅的锅底哪个好吃?海底捞的蘸料收费吗?

试用期要缴纳社保吗?试用期开除员工需要给补偿吗?

什么是315打假?315打假一般会持续几天?

​节气探农事|绿色防控植保技术进社区_天天新消息

【全球播资讯】节气探农事|京郊春大棚小型西瓜，定植期如何管理

世界短讯！12年了！国米重返欧冠8强，米兰双雄回来了？

全球视点！台湾游到大陆士兵父亲说要打断他的腿，最快今日会被发布通缉令

GPT-4震撼发布：多模态大模型，直接升级ChatGPT、必应，开放API

每日速递：震撼！GPT-4来了，支持多模态，全面吊打ChatGPT，完虐标准化考试

OpenAI发布GPT-4，做题能力更强，还接受图片输入，看懂梗图无障碍！

信息：感受家门口的美好！北京今年“疏整促”专项行动推45项任务

交警开始查安全带了！请注意：乘车人不系安全带罚款20元

每日动态!3月15日起执行！北京海淀区新冠疫苗常态化接种点位信息公布

降本增效的传送门：数智化一站式商旅服务

爱驰U6怎么样？白色情人节约会神车

北京：1-2月一般公共预算支出1561.5亿元，增长6.5%

全球微动态丨“断头路”打通尚有时日 日常管理能否先行？网友诉说心中痛与盼

“企服通”优化营商环境“有一手”正向宁波全市推广_每日简讯

天天快消息！媲美车厘子“北国春果第一枝”来了

国乒大逆转：张瑞决胜局打爆日本新星吃黄牌后暴走平野摊手苦笑

宁波地铁小洋江站将实现三线换乘有什么特别之处？

总投资5.6亿元宁海下洋涂万亩旱地将大变样

OpenAI发布GPT-4：能识图能算税，ChatGPT摆脱Chat，再次进化简讯

洪都拉斯欲与中国建交今日热搜

PC玩家成大冤种？这些游戏优化过于差，连最贵的显卡都跑不动？世界速看

字母哥又一争议动作！肘击打掉太阳悍将牙齿伸手进嘴巴掏出碎片全球滚动

西部最新卡位局势：湖人赢球反跌至第十三队战绩持平雷霆升第八

16000分里程碑！字母哥连超3名宿+同届首人率雄鹿高居联盟第一|全球今热点

从0到1，4位高校书记校长谈创新｜两会@教育·声音每日短讯

揭秘“水军”机器人大军：用现代的技术，干一些下三滥的事情实时

在春游中研学在研学中成长-全球看点

中国移动杨杰：建议中小学普及编程教育课程从元宇宙等产业入手_热点评

节气探农事|绿色防控植保技术进社区_天天新消息

全球微动态丨“断头路”打通尚有时日日常管理能否先行？网友诉说心中痛与盼

宁波2022年消费维权报告来了线上商品质量投诉超过线下世界今日讯

宁波启动消防产品质量专项整治一批不合格消防产品被集中销毁_世界视点

每日速看!直击315｜消费者投诉：中免集团日上免税店销售过期化妆品假货SK-II不予售后

315爆大瓜！东方甄选和董宇辉涉虚假宣传，养殖虾卖出野生的价钱快报

环球热门:以网为媒凝聚文明合力慈溪“三治联动”营造清朗网络空间

世界微资讯！宁波市预付式消费情况调查报告发布第三方平台资金托管成最大诉求

塔院社区大食堂解决老人吃饭难