GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

来源：新智元时间：2023-05-30 14:27:42

我们知道，大语言模型（LLM）在广泛的 NLP 任务中已经表现出卓越的能力，甚至展现出能够实现通用人工智能某些方面的良好迹象。此外，与人类的智能进化类似，LLM 在最近的研究中被揭示出使用外部工具从而提升解决问题能力及效率的潜力。

需要注意的是，这些工具使用方法的适用性很大程度程度上取决于是否有合适的工具。从人类进化的里程碑可以发现，人类进化的关键转折点是人类有能力制造工具来解决出现的困难。

受到制造工具对人类重要性的启发，在本文中，Google Deepmind、普林斯顿和斯坦福大学的研究者将这种「进化」的概念应用于 LLM 领域，进行了初步探索。他们提出了一个闭环框架，在这个框架中LLM 作为工具制作者（LLMs As Tool Makers ，LATM），使其能够生成自己的可重新使用的工具来处理新任务。

(资料图片仅供参考)

论文地址：https://arxiv.org/pdf/2305.17126.pdf

该方法包括两个关键阶段:

工具制作：LLM 作为工具制作者，专门为给定的任务设计工具（作为 Python 函数实现）；工具使用：另一个 LLM 作为工具使用者，它可以与工具制作者相同，应用工具来处理新的请求。

两阶段设计允许 LATM 在每个阶段将作业分配给最合适的 LLM。一方面，需要高度能力的工具制造过程可以分配给一个功能强大且资源密集型的模型 (例如 GPT-4)。另一方面，相对简单的使用工具过程，可以分配给轻量、经济高效的模型 (例如 GPT-3.5 Turbo)。这种方法不仅增强了 LLM 解决问题的能力，并能够显著降低处理一系列任务的平均计算成本。

LATM 的闭环框架。

由于工具制作过程只需要对给定的功能执行一次，因此生成的工具可以在不同的任务实例中反复使用。这种方法为处理复杂任务开拓了可扩展、成本高效的解决方案。例如，假定一个任务，用户要求 LLM 安排一个适合每个人的会议（例如在电子邮件对话中）。涉及复杂算术推理的任务对于像 GPT-3.5 Turbo 这样的轻量级模型来说是艰巨的挑战。相比之下，更强大的模型（例如 GPT-4）虽然推理成本要高得多，但是能够找到正确的解决方案。

LATM 能够克服这种困难，是因为它将强大但昂贵的模型当作工具制作者，并将工具传递给工具使用者 —— 经济型模型进行使用。工具制作完成后，轻量级工具使用者可以用它来高效、高性能地解决任务。

本文的实验能够验证这种方法在复杂的推理任务上（包括几个具有挑战性的 Big-Bench 任务）的有效性。结果表明，LATM 可以达到与资源密集型模型相当的性能，同时具有更高的成本效益。这种新颖的 LLM 方法，模仿了人类在创建和使用工具方面的进化飞跃，为开辟使用 LLM 生成的工具的社区提供了无限可能。

方法概览：LLM as Tool Maker (LATM)

制作新工具并重复使用

在 LATM 范式中，主要过程可以分为两个阶段：工具制作和工具使用。每个阶段都利用不同类型的大语言模型（LLM）来平衡性能和成本效率。

对于工具制作（Tool Making），该阶段采用强大但成本更高昂的模型（例如 GPT-4）作为工具制作者。工具制作者通过特定任务的一些演示来创建通用和可复用的工具（作为 Python 函数实现）。该阶段又可以进一步分为以下三个子阶段：

首先是工具提出（Tool Proposing）。在这一阶段，工具制作者尝试生成一个 Python 函数，用以解决给定任务的演示。该过程遵循「实例编程」（PbE）范式，其中提供了几个具体的演示，并且需要模型编写产生演示行为的程序。在实验中，研究者在该阶段使用了 3 个演示。如果提出的工具无法执行或者遇到错误，工具制作者会将错误信息附加到历史记录中并进行另一次尝试。

其次是工具验证（Tool Verification）。在这一阶段，工具制作者使用验证样本生成单元测试，然后在提出的工具中执行这些测试。研究者在实验中使用了 3 个验证样本。如果工具未能通过任何这些测试，工具制作者会在其历史记录中记录下错误，并尝试在单元测试中纠正问题（此过程只会纠正单元测试部分的函数调用，而不会纠正功能）。LLM 的自调试能力已在最近的研究中得到有效证明，然而在 LATM pipeline 中，验证阶段的用途稍有不同。该阶段有两个关键作用：一是提供示例来演示如何将自然语言问题转换为函数调用；二是验证工具的可靠性，使整个过程充分自动化。

最后是工具封装（Tool Wrapping）。如果执行或验证失败超过了预设阈值，则工具封装阶段被视为失败。相反，工具制作者准备好为工具使用者提供封装后的工具。该步骤涉及封装函数代码，并演示如何将一个任务转换为函数调用。这些演示从工具验证步骤中提取，从而将问题转换为单元测试。随后最终产品可供工具使用者使用。

完成了工具制作，接下来是工具使用（Tool Using）了。该阶段涉及一个轻量级且具有成本效益的模型（例如 GPT-3.5 Turbo），用作工具使用者。工具使用者的角色是利用验证后的工具来解决任务的不同实例。该阶段的 prompt 是封装工具，它包含了解决任务的函数和如何将任务查询转换为函数调用的演示。通过演示，工具使用者能够以一种上下文学习的方式来生成需要的函数调用，然后执行函数调用以解决任务。或者可以应用后处理来转换输出以匹配任务所需的格式，例如多项选择题的选项。

总的来说，工具制作阶段包括工具提出、验证和封装，每类任务只需执行一次，然后可以将生成的工具重复用于该任务的所有实例。与单独使用强大的模型相比，这使得 LATM 的效率和成本效益显著增加。此外，Python 函数时一种更通用的思维链，增强了整体效用和灵活性，因此可用于解决涉及算法推理能力的问题。

LATM 的 pipeline。

下图 3 展示了方法的具体示例，说明工具制作者如何通过生成工具（Python 函数）来解决 BigBench 的逻辑推导任务，以及工具使用者如何使用工具。

使用 Dispatcher 处理流数据

在真实世界场景中，任务实例通常按顺序出现。为了适应这种数据流，研究者引入了第三个 LLM 即 dispatcher，它确定是让工具使用者还是工具制作者参与每个传入的任务。dispatcher 模块与现有工作中的工具选择功能有相似之处，然后在识别现有工具无法解决的新任务以及让工具制作者为这些任务生成新工具方面具有独到的能力。

具体而言，dispatcher 保留了工具制作者产生的现有工具的记录。当接收到新的任务实例时，dispatcher 首先确定是否有适合手头任务的工具。如果有合适的工具，则将实例确定为新任务，并利用强大的模型解决该实例，甚至可以调用人工标注器。随后缓存新任务的实例，直到缓存实例足够工具制作者制作新工具。具体的工作流程如下图 4 所示。

实验结果

本文在来自不同领域的 6 个数据集上评估了所提出的方法，包括 Logical Deduction、Tracking Shuffled Objects、Dyck Language、Word Sorting、 Chinese Remainder Theorem 和 Scheduling Meeting。

在工具制作阶段，研究者将温度参数设置为 0.3，以在生成过程中引入随机性，并在必要时允许重试。在这个阶段，实验使用了带有 ChatCompletion API 的 GPT-4 和 GPT-3.5 Turbo 模型进行，并不断将响应附加进聊天记录当中，来创造交互体验。

在工具使用阶段，LLM API 调用仅进行一次，并使用标准完成 API 对 gpt -3 型模型进行消融研究。当使用工具时，温度参数始终为设置为 0.0。在工具提出和工具验证阶段的最大重试次数设置为 3。

工具制作的有效性

据实验观察，GPT-4 作为工具制作者时，常能设计出合适的算法来解决任务。例如下表 1 中，工具制作者搜索所有排列，并选择满足给定约束的正确排列来创建代码，解决逻辑演绎任务。在实验中，工具验证阶段主要用于演示如何将自然语言问题转换为函数调用。在 60 次试验中，只观察到 2 例工具制作者可以在错误消息的指导下纠正其错误。

LATM 提升轻量级 LLM 的性能

下表 2 比较了思维链提示与 LATM 的性能。实验使用 GPT-4 作为工具制作者为这六项任务生成工具，并评估 GPT-3.5 Turbo 和 GPT-4 作为工具使用者的性能。结果表明，在该工具的帮助下，像 GPT-3.5 Turbo 这样的轻量级模型可以达到与 GPT-4 相当的性能，显著优于 CoT 提示。此外与使用 GPT-4 相比，使用 GPT-3.5 Turbo 的平均成本要低得多。

这突出了 LATM 在增强轻量级模型的性能方面的有效性。因此，使用 LATM 相较于安规的模型来说，能够降低成本。

将 LATM 扩展为具有混合任务的流设置

将 LATM 扩展为流设置后，流设置中不同任务的实例可以实时到达。在这种情况下，需要另一个模型调度程序，来确定实例所属的任务。实验使用 GPT-3.5 Turbo 作为调度器，并评估其能力:

识别现有工具来解决传入实例；为未知任务的实例请求工具制作。

结果表明，调度程序可以有效地识别现有的工具，并为未知任务请求工具制作，但它不会大幅降低性能。这表明 LATM 可以平滑地扩展到具有混合任务的流设置。

消融实验

首先是工具制作语言模型所需的能力。研究者调研了工具制作阶段所用语言模型的能力要求。一般来说，更强大且成本更高昂的模型越能达到目的，这是因为该阶段中每个任务只执行一次，高准确度对于有效地将工具传递给更小的模型至关重要。

其次是工具使用语言模型所需的能力。研究者调研了工具使用模型的能力要求，具体结果如下表 4 所示，GPT-3.5 Turbo 在所有测试的模型中实现了最佳的性能与成本平衡。

最后是思维链（CoT）作为工具没有帮助。除了 LATM 之外，研究者还调研了是否可以通过重用更大模型和更小模型（类似于 LATM pipeline）的思维链来提高性能。具体结果如下表 5 所示，使用大模型的 CoT 与人类编写的 CoT 具有相似甚至更差的性能，这要比 LATM 差得多。

标签：

最近更新

GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

我们知道，大语言模型（LLM）在广泛的NLP任务中已经表现出卓越的能力，甚至展现出能够实现通用人工智能某些

时间：2023-05-30 14:27:42
今日要闻!谁拖累了民生银行？

图片来源@视觉中国文丨BT财经，作者｜庆秋民生银行被卷入昆明城投会议纪要事件后如坐针毡。昆明专家城投纪

时间：2023-05-30 13:51:40
世界讯息：三番五次的拼音三番五次

今天来聊聊关于三番五次的拼音，三番五次的文章，现在就为大家来简单介绍下三番五次的拼音，三番五次，希望

时间：2023-05-30 12:27:23
“陇右名山”兴隆山初夏满目苍绿美似油画

初夏，兰州市榆中县，“陇右名山”兴隆山苍翠碧绿。　陆嘉祥　摄图为山间盛开的花朵。　陆嘉祥摄图为兴隆山

时间：2023-05-30 11:52:50
“你还有七个学生没毕业。”桂海潮：“天上可以开组会。” _快看点

”“03，你还有七个学生没毕业

时间：2023-05-30 11:56:42
世界观热点：买房不用掏首付，还能“倒拿”？这靠谱吗？

文华卓玛近日，深圳、重庆等地买房可以“负首付”，成为关注热点。“负首付”即购房时通过“高评高贷”，

时间：2023-05-30 10:27:03
世界球精选！妆前乳必须用吗（妆前乳必须用吗?）

妆前乳并非必需品，如果有的仙女们肌肤状态不错，水油较为平衡也没有太大的色差问题，妆前乳是可以不用的。

时间：2023-05-30 09:47:17
世界消息！磁能坦克（关于磁能坦克介绍）

来为大家讲解以上的问题。磁能坦克，能坦克介绍这个很多人还不知道,我们一起来看看！1、磁能坦克是《红色警

时间：2023-05-30 08:56:41
男子地铁偷拍女生裙照？天津警方：已开展调查_全球聚焦

央视网消息：5月29日，天津市公安局公共交通治安管理总队官方微博@平安公交通报，针对互联网上出现的“一男

时间：2023-05-30 08:20:32
得邦照明（603303）：5月29日北向资金减持3.1万股_全球观焦点

5月29日北向资金减持3 1万股得邦照明。近5个交易日中，获北向资金减持的有3天，累计净减持7 14万股。近20个

时间：2023-05-30 07:22:42
幻体继命游戏迅雷下载_幻体

1、都还是不错的。2、个人认为超脑好看一些不过都比较的烧脑。3、看着有点费劲！。本文为大家分享到这里，

时间：2023-05-30 06:55:06
“电莓发展指数”助力东港草莓产业发展|全球观热点

原标题：“电莓发展指数”助力东港草莓产业发展中工网讯（工人日报—中工网记者刘旭通讯员陈薪成）近日，辽

时间：2023-05-30 05:55:48
最强重生之学霸女神帅呆了_对于最强重生之学霸女神帅呆了简单介绍

1、《最强重生之学霸女神帅呆了》是连载于红袖添香的一部玄幻言情类网络小说。2、作者是明月惊风。文章到此

时间：2023-05-30 04:57:56
反恐精英online的暗影芭比啵啵枪多少钱啊_反恐精英online的暗影芭比啵啵枪多少钱啊

想必现在有很多小伙伴对于反恐精英online的暗影芭比啵啵枪多少钱啊方面的知识都比较想要了解，那么今天小好

时间：2023-05-30 04:03:48
环球视点！便携式wifi路由器怎么用_便携式wifi路由器

随身wifi无线路由器每个月都给高流量消费者带来好消息。越来越多的人随身携带便携式wifi无线路由器。其便利

时间：2023-05-30 03:02:15
推动从严治警深化专项整治促进公安交警管理和服务水平全面提升

今年以来，按照咸阳市、旬邑县纪委部署，旬邑县公安局交通警察大队深化思想认识，坚持问题导向，做到立行立

时间：2023-05-30 02:54:09
天天即时：中国星辰｜增强现实技术详解中国航天“三垂一远”测发模式

本次任务，总台也在酒泉卫星发射中心发射场区设置了增强现实报道点，通过增强现实技术介绍载人航天发射任务

时间：2023-05-30 01:28:45
国产大飞机C919开启常态化商业运行这些“四川造”护航微资讯

C919与四川的缘分早在设计制造时就已结下。从前期的飞机制造，到后期全生命周期安全运营，这些四川造保障着

时间：2023-05-30 00:50:24
天合光能跌16.34% 机构净卖出4.52亿元

天合光能(688599 SH)今日股价收报40 30元，跌幅16 34%。龙虎榜数据显示，天合光能卖出金额最大的前五名中

时间：2023-05-30 00:08:01
行政机关负责人出庭应诉利于法治政府建设

周口日报全媒体记者朱东一5月29日，全市召开行政机关负责人出庭应诉庭审观摩暨专项培训会。此次观摩培训活

时间：2023-05-30 00:17:19
刚刚！芜湖发布公积金新政！还有……

刚刚！芜湖发布公积金新政！还有……,首付款,缴存人,贷款额度,住房公积金

时间：2023-05-29 22:22:49
【时快讯】汽车kw是什么意思（汽车kw是什么意思？）

相信大家对汽车kw是什么意思，汽车kw是什么意思？的问题都很疑惑，这个问题很多人还不知道怎么解决,现在让

时间：2023-05-29 21:17:57
快看点丨女子打扫卫生发现床底躺着一男子，还偷走了卧室的监控内存卡

近日，在赣州发生一件奇葩事。一女子在家中四楼打扫卫生时，发现卧室床底躺着一男子。于是女子赶紧报警，可

时间：2023-05-29 20:21:06
硬科技嘉年华

作为中关村论坛配套活动，2023硬科技嘉年华于5月26日-28日持续举办三天，为大家打造一场科技与文化相结合的

时间：2023-05-29 20:24:07
莱昂纳多：希望拿金靴奖首要目标是帮亚泰进亚冠_环球微资讯

特约记者刘准报道连续5轮破门总共打进7球帮助球队抢到8分，第八轮更是上演帽子戏法，而且还在当轮收获中超

时间：2023-05-29 19:27:11
京津冀产业合作重点平台目录发布，通武廊谋划深度融合

北京日报客户端|记者曹政5月29日上午，在中关村论坛上，京津冀三省市联合举办京津冀协同发展系列活动，三省

时间：2023-05-29 18:49:00
尚德一季报：新增学员同比增长22%，递延收入却不增反降-报资讯

一季度实现净收入5 67亿元，同比减少7 6%，净利润1 80亿元，同比增长0 4%。

时间：2023-05-29 18:02:43
纳指连涨5周创九个月新高纳斯达克ETF（159632）大涨3.25%

因此，在美联储的紧缩周期结束后，美股的表现会更好。

时间：2023-05-29 17:31:36
征途弓手属性加点_绿色征途弓手技能详细加点_每日头条

想必现在有很多小伙伴对于绿色征途弓手技能详细加点方面的知识都比较想要了解，那么今天小好小编就为大家收

时间：2023-05-29 16:17:35
全国主流地区进口大豆压榨利润金十期货5月29日讯，据Wind数据，5月29日进口大豆压榨利润如下

全国主流地区进口大豆压榨利润金十期货5月29日讯，据Wind数据，5月29日进口大豆压榨利润如下：1 山东地区进

时间：2023-05-29 15:34:18

X 关闭

滚动

专家

江苏：采取更加坚决果断措施迅速打赢苏州疫情防控战

深圳调整跨境货车内地接驳司机核酸检测为每日一检

X 关闭

滚动