探索“草莓”:迈向智能思维的人工智能新起点

2024-11-25 19:25来源:本站编辑

  

据知情人士透露,ChatGPT制造商OpenAI正在一个代号为“草莓”的项目中开发一种新的人工智能模型。

该项目的细节此前从未被报道过,目前微软支持的初创公司正在竞相展示其提供的模型类型能够提供高级推理能力。

根据路透社5月份看到的OpenAI内部文件副本,OpenAI内部的团队正在开发Strawberry。路透社无法确定该文件的确切日期,该文件详细说明了OpenAI打算如何使用Strawberry进行研究的计划。该消息人士向路透社表示,该计划正在进行中。该通讯社无法确定“草莓”离上市还有多远。

这位知情人士说,即使在OpenAI内部,“草莓”的工作原理也是一个严格保密的秘密。

据知情人士透露,该文件描述了一个使用Strawberry模型的项目,目的是使该公司的人工智能不仅能够生成查询的答案,而且能够提前做好足够的计划,自主、可靠地在互联网上导航,以执行OpenAI所说的“深度研究”。

根据对十多位人工智能研究人员的采访,这是迄今为止人工智能模型无法解决的问题。

当被问及“草莓”和这篇报道中的细节时,OpenAI公司的一位发言人在一份声明中说:“我们希望我们的人工智能模型能像我们一样看到和理解这个世界。不断研究新的人工智能功能是业界的一种普遍做法,大家都相信,随着时间的推移,这些系统将在推理方面得到改进。”

发言人没有直接回答有关“草莓”的问题。

草莓项目的前身是Q*,据路透社去年报道,该项目在公司内部已经被视为一项突破。

两名消息人士描述了今年早些时候OpenAI员工告诉他们的Q*演示,能够回答当今商用模型无法解决的棘手科学和数学问题。

另一位知情人士表示,OpenAI已经对人工智能进行了内部测试,人工智能在数学数据集上的得分超过了90%,数学数据集是冠军数学问题的基准。路透社无法确定这是否是“草莓”项目。

据彭博社(Bloomberg)报道,在周二的一次内部全体会议上,OpenAI展示了一个研究项目的演示,据称该项目具有新的类人推理技能。OpenAI的一位发言人证实了这次会议,但拒绝透露会议内容的细节。路透社无法确定该项目是否为“草莓”。

知情人士表示,OpenAI希望这一创新将大大提高其人工智能模型的推理能力,并补充说,“草莓”涉及一种处理人工智能模型的专门方式,该模型是在非常大的数据集上进行预训练的。

路透社采访的研究人员表示,推理是人工智能实现人类或超人类智能水平的关键。

虽然大型语言模型已经可以比人类更快地总结密集的文本和撰写优美的散文,但这种技术在解决对人类来说似乎很直观的常识性问题上往往存在不足,比如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时,它通常会产生“幻觉”虚假信息。

接受路透社采访的人工智能研究人员普遍认为,在人工智能的背景下,推理包括形成一个模型,使人工智能能够提前计划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。

提高人工智能模型的推理能力被视为解锁模型能力的关键,从重大科学发现到规划和构建新的软件应用程序。

OpenAI首席执行官萨姆·奥特曼今年早些时候表示,在人工智能领域,“最重要的进步将围绕推理能力展开。”

谷歌、meta和微软等其他公司也在尝试不同的技术来提高人工智能模型的推理能力,大多数从事人工智能研究的学术实验室也是如此。然而,对于大型语言模型(llm)是否能够将想法和长期规划纳入预测方式,研究人员持不同意见。例如,现代人工智能的先驱之一、meta公司的Yann LeCun就经常说法学硕士不具备类似人类的推理能力。

人工智能的挑战

知情人士称,Strawberry是OpenAI克服这些挑战计划的关键组成部分。路透社看到的文件描述了“草莓”的目标,但没有说明如何实现。

据四名听过该公司宣传的人士透露,近几个月来,该公司一直在私下里向开发人员和其他外部各方暗示,它即将发布具有更先进推理能力的技术。他们拒绝透露身份,因为他们没有被授权谈论私事。

其中一位消息人士称,“草莓”包括一种被称为“后训练”OpenAI的生成式人工智能模型的专门方法,即在对大量广义数据进行“训练”后,对基础模型进行调整,以特定方式磨练其性能。

开发模型的后训练阶段涉及到“微调”等方法,这是当今几乎所有语言模型都使用的一个过程,有很多不同的形式,比如让人类根据模型的反应向模型提供反馈,并给它提供好的和坏的答案。

据知情人士透露,“草莓”与斯坦福大学2022年开发的一种名为“自学推理器”或“STaR”的方法有相似之处。STaR的创始人之一、斯坦福大学教授诺亚·古德曼对路透社表示,STaR使人工智能模型能够通过迭代地创建自己的训练数据来“引导”自己达到更高的智能水平,理论上可以用来让语言模型超越人类的智能水平。

“我认为这既令人兴奋又令人恐惧……如果事情继续朝着这个方向发展,我们作为人类就有一些严肃的事情要考虑了,”古德曼说。Goodman并不隶属于OpenAI,也不熟悉Strawberry。

第一个消息来源解释说,OpenAI将“草莓”瞄准的功能之一是执行长期任务(LHT),指的是需要模型提前计划并在很长一段时间内执行一系列动作的复杂任务。

OpenAI的内部文件显示,为此,OpenAI正在创建、训练和评估该公司所谓的“深度研究”数据集上的模型。路透社无法确定数据集中的内容,也无法确定延长的时间意味着多长。

根据该文件和其中一位消息人士的说法,OpenAI特别希望其模型能够利用这些功能,在“CUA”(即使用计算机的代理)的帮助下自主浏览网页,从而进行研究。CUA可以根据其发现采取行动。OpenAI还计划测试其在软件和机器学习工程师工作方面的能力。

八方资讯声明:未经许可,不得转载。