第四瑟瑟 单卡3090纯视觉玩转MineCraft,发ICLR 2025 Oral!

taylor swift ai换脸

你的位置:taylor swift ai换脸 > 松岛枫电影 > 第四瑟瑟 单卡3090纯视觉玩转MineCraft,发ICLR 2025 Oral!
第四瑟瑟 单卡3090纯视觉玩转MineCraft,发ICLR 2025 Oral!
发布日期:2025-03-24 22:06    点击次数:192

第四瑟瑟 单卡3090纯视觉玩转MineCraft,发ICLR 2025 Oral!

Datawhale学术 第四瑟瑟

作家:王琦,Datawhale成员

LS-Imagine 通过纯视觉不雅测来玩 Minecraft,仿照东谈主类玩家的作念法来学习 RL 限度战术,不开外挂,不使用特权信息。

在高维通达宇宙中进修视觉强化学习智能体濒临诸多挑战。尽管有模子的强化学习步调(MBRL)通过学习交互式宇宙模子提高了样本完毕,但这些智能体经常具有“短视”问题,因为它们经常仅在一忽儿的念念象训导片断上进行进修。咱们以为,通达宇宙有研究的主要挑战在于奈何提高在巨大情状空间中的探索完毕,相称是关于那些需要研究弥远陈述的任务。是以,咱们建议了一种新的强化学习步调: LS-Imagine,通过构建一个是曲期宇宙模子(Long Short-Term World Model),在目的驱动的情况下模拟非凡式情状调遣,并通过放大单张图像中的特定区域诡计相应的功用性图(Affordance Map)来收场在有限的情状回荡步数内推广智能体的念念象范围,使其好像探索可能带来故意弥远陈述的步履。

论文标题:Open-World Reinforcement Learning over Long Short-Term Imagination

论文作家:李佳键*,王琦*,王韫博(通信作家),金鑫,李洋,曾文军,杨小康 (* 共团结作)

格式网址:https://qiwang067.github.io/ls-imagine

论文聚首:https://openreview.net/pdf?id=vzItLaEoDa

代码聚首:https://github.com/qiwang067/LS-Imagine

伸开剩余89%

论文标题:Open-World Reinforcement Learning over Long Short-Term Imagination

论文作家:李佳键*,王琦*,王韫博(通信作家),金鑫,李洋,曾文军,杨小康 (* 共团结作)

格式网址:https://qiwang067.github.io/ls-imagine

论文聚首:https://openreview.net/pdf?id=vzItLaEoDa

代码聚首:https://github.com/qiwang067/LS-Imagine

在强化学习布景下,通达宇宙中的有研究具有以下特征:

1. 众多的情状空间:智能体在一个具有巨大情状空间的交互式环境中运行;

2. 高度天确实战术:所学习的战术具有较高的天真性,使智能体好像与环境中的各式对象进行交互;

3. 环境感知的不细则性:智能体无法透顶不雅测外部宇宙的里面情状和物理能源学,即其对环境的感知(举例,原始图像)经常具有较大的不细则性。

1. 众多的情状空间:智能体在一个具有巨大情状空间的交互式环境中运行;

2. 高度天确实战术:所学习的战术具有较高的天真性,使智能体好像与环境中的各式对象进行交互;

3. 环境感知的不细则性:智能体无法透顶不雅测外部宇宙的里面情状和物理能源学,即其对环境的感知(举例,原始图像)经常具有较大的不细则性。

举例,Minecraft是一个典型的通达宇宙游戏,适当上述特点。

基于最近在视觉限度范围的进展,通达宇宙有研究的目的是进修智能体仅基于高维视觉不雅测来接近东谈主类级别的智能。可是,这也带来了诸多挑战。举例在 Minecraft 任务中:

• 基于高层 API 的步调(如 Voyager)由特定环境的 API 进行高层限度,不适当圭臬的视觉限度设定,收尾了泛化才调和适用范围。

• 无模子强化学习步调(如 DECKARD)枯竭对环境底层机制的通晓,主要依赖高资本的试错探索,导致样本运用率低,探索完毕欠安。

• 有模子的强化学习步调(如 DreamerV3)尽管提高了样本完毕,但由于仅依赖短期训导优化战术,智能体阐扬出“短视”问题,难以进行有用的弥远探索。

• 基于高层 API 的步调(如 Voyager)由特定环境的 API 进行高层限度,不适当圭臬的视觉限度设定,收尾了泛化才调和适用范围。

• 无模子强化学习步调(如 DECKARD)枯竭对环境底层机制的通晓,主要依赖高资本的试错探索,导致样本运用率低,探索完毕欠安。

• 有模子的强化学习步调(如 DreamerV3)尽管提高了样本完毕,但由于仅依赖短期训导优化战术,智能体阐扬出“短视”问题,难以进行有用的弥远探索。

为了提高有模子强化学习经由中步履学习的完毕,咱们建议了一种新步调——LS-Imagine。该步调的中枢在于使宇宙模子好像高效模拟特定步履的弥远影响,而无需反复进行逐渐瞻望。

图 1:LS-Imagine 的全体框架

如 图 1所示,LS-Imagine 的中枢在于进修一个是曲期宇宙模子(Long Short-Term World Model),在表征学习阶段交融任务特定的率领信息。经过进修后,宇宙模子不错扩充即时情状调遣和非凡式情状调遣,同期生成相应的内在奖励,从而在短期与弥远念念象的长入空间中优化战术。非凡式情状调遣使智能体好像绕过中间情状,顺利在一步念念象中模拟任务联系的未来情状 ,促使智能体探索可能带来故意弥远陈述的步履。

可是,这种步调激发了一个经典的“先有鸡照旧先有蛋”的问题:

若是莫得信得过数据暗示智能体依然达成目的,咱们奈何有用进修模子以模拟从现时情状非凡式调遣到未来和目的高度联系的情状?

若是莫得信得过数据暗示智能体依然达成目的,咱们奈何有用进修模子以模拟从现时情状非凡式调遣到未来和目的高度联系的情状?

为了束缚这个问题,咱们在不雅察图像上针对特定区域赓续扩充放大(Zoom in)操作以模拟智能体在接近该区域经由中的一语气不雅察视频帧,并将这段视频帧与任务的文本描画进行联系性评估,从而生胜运用性图用于隆起不雅察中与任务联系的潜在重要区域。在此基础上,咱们通过与环境交互积存来自相邻技巧步长的图像不雅察对以及跨越较长技巧完毕的图像对行为数据集,对宇宙模子的特定分支进行进修,使其好像扩充即时情状调遣和非凡式情状调遣。宇宙模子进修完成后,咱们基于宇宙模子生成一系列念念象的隐情状序列,优化智能体的战术。在有研究的经由中,不错借助非凡式情状调遣顺利测度弥远陈述,从而增强智能体的有研究才调。

2. 主要更动点和孝敬

咱们建议了一种新颖的有模子强化学习步调,好像同期扩充即时情状调遣和非凡式情状调遣,并将其应用于步履学习,以提高智能体在通达宇宙中的探索完毕。

LS-Imagine 带来了以下四点具体孝敬:

av电影网

1. 是曲期勾通的宇宙模子架构;

2. 一种通过图像放大模拟探索经由以生胜运用性图的步调;

3. 基于功用性图的新式内在奖励机制;

4. 一种篡改的步履学习步调,该步调勾通了弥远价值测度,并在搀杂的是曲期念念象序列上运行。

1. 是曲期勾通的宇宙模子架构;

2. 一种通过图像放大模拟探索经由以生胜运用性图的步调;

3. 基于功用性图的新式内在奖励机制;

4. 一种篡改的步履学习步调,该步调勾通了弥远价值测度,并在搀杂的是曲期念念象序列上运行。

1. 是曲期勾通的宇宙模子架构;

2. 一种通过图像放大模拟探索经由以生胜运用性图的步调;

3. 基于功用性图的新式内在奖励机制;

4. 一种篡改的步履学习步调,该步调勾通了弥远价值测度,并在搀杂的是曲期念念象序列上运行。

LS-Imgaine 包含以下的重要的算法才能:

1. 功用性图诡计

如 图 2所示,为了生胜运用性图,咱们在不依赖信得过告成轨迹的情况下模拟并评估智能体的探索经由。

图 2:功用性图诡计经由

具体而言,关于单帧不雅察图像,咱们使用一个滑动范畴框从左至右、自上而下遍历扫描整张不雅察图像。关于滑动范畴框场地的每个位置,咱们从原始图像入手编著出 16 张图像,以平缓视线来聚焦于范畴框场地的区域,并养息回原始图像的大小,得到一语气的 16 帧图像用于模拟智能体向范畴框所示区域移动时的视觉变化。

随后,咱们使用预进修的 MineCLIP 模子来评估模拟探索视频和任务文本描画之间的联系性,以此行为该区域的潜在探索价值。当滑动范畴框扫描完通盘图像后,咱们交融整个范畴框位置的联系性值,从而生成一张圆善的功用性图,为智能体的探索提供率领。

2. 快速功用性图生成

上述才能 1 中的功用性图诡计经由触及闲居的窗口遍历,并对每个窗口位置使用预进修的视频-文本对皆模子进行诡计。这种步调诡计量大、技巧支出高,使其难以应用于及时任务。为此,咱们联想了一套基于 Swin-Unet 的多模态 U-Net 架构,并通过上述的基于造谣探索的功用性图诡计步调来标注数据行为监督信号,进修该多模态 U-Net 架构,使其不错如 图 3所示在每个技巧步运用视觉不雅察与讲话教导,高效地生胜运用性图。

图 3:运用多模态 U-Net 高效生胜运用性图3. 左证功用性图诡计内在奖励以及评估非凡式情状调遣的必要性

如 图 4所示,为了运勤勉用性图所提供的任务联系先验常识,咱们诡计功用性图与同尺寸的二维高斯矩阵逐元素相乘的均值,并将其行为功用性驱动的内在奖励(affordance-driven intrinsic reward)。该奖励能激励智能体赓续围聚目的并将目的对皆在视角中心。

图 4:功用性驱动的内在奖励诡计步调

此外,为了评估念念象经由中非凡式调遣的必要性,咱们引入了一个非凡标识(jumping flag)。如 图 5所示,当智能体的不雅察中出现远距离的任务联系目的时,会在功用性图上体现为高价值区域高度集中,这也会导致功用性图的峰度(kurtosis)显耀升高。在这种情况下,智能体应接管非凡式情状调遣(也称作弥远调遣),以高效抵达目的区域。

图 5:非凡式情状调遣必要性评估4. 是曲期宇宙模子

在 LS-Imagine 中,宇宙模子需要好像同期撑捏即时情状调遣(短期情状调遣)和非凡式情状调遣(弥远情状调遣)。是以,如 图 6 (a)所示,咱们在情状调遣模子中联想了短期和弥远两个分支,短期情状调遣模子将勾通现时时刻的情状和动作来扩充单步的即时情状调遣以瞻望下一相邻技巧步的情状;弥远调遣模子则模拟目的导向的非凡式情状调遣,率领智能体快速念念象向目的探索。智能体不错左证现时的情状决定接管哪种类型的调遣,并通过所选的调遣分支瞻望下一情状。

图 6:是曲期宇宙模子架构以及基于是曲期念念象的步履学习

永别于传统的宇宙模子架构,咱们相称联想了非凡瞻望器(Jump predictor)以左证现时的情状判断应该扩充哪种类型的调遣;同期,关于非凡式的情状调遣,咱们联想了完毕瞻望器(Interval predictor)以测度跳转前后的情状所完毕的环境技巧步数 以及技巧的累积扣头奖励 ,它们将用于在后续的步履学习中测度弥远陈述。此外,咱们还将功用性图 行为编码器(encoder)的输入,它不错为智能体提供基于目的的先验率领,以擢升有研究经由的有用性。

在此架构基础上,智能体与环境交互并积存新数据,得到对应于短期情状调遣的相邻技巧步长的样本对,并左证功用性图建模出对应于弥远情状回荡的跨越较长技巧完毕的样本对。咱们将使用这些数据来更新重放缓冲区(replay buffer)并从中采样数据对是曲期宇宙模子进行进修。

5. 在是曲期念念象序列上进行步履学习

如 图 6 (b)所示,LS-Imagine 接管演员-驳倒家(actor-critic)算法,通过宇宙模子瞻望的潜在情状序列来学习步履。其中,演员(actor)的目的是优化战术,以最大化扣头累积奖励 ,而驳倒家(critic)的作用则是基于现时战术估算每个情状的扣头累积奖励。

图 7:动态选拔使用弥远回荡模子或短期回荡模子瞻望是曲期念念象序列

如图 7所示,从采样的不雅测和功用性图编码的入手情状开拔,咱们左证非凡瞻望器瞻望的非凡标识动态选拔使用弥远或短期的情状调遣模子,以瞻望后续情状。在具有念念象范围 的是曲期念念象序列中,咱们通过宇宙模子中的各类瞻望器瞻望情状对应的奖励、链接标识,以及相邻情状所完毕的环境技巧步数以及技巧的累积扣头奖励等信息,并接管篡改的 bootstrap-returns 勾通弥远与短期念念象以诡计每个情状的扣头累积奖励:

并接管演员-驳倒家算法进行步履学习。

4. 试验完毕

咱们在 Minecraft 游戏环境中进行试验来测试 LS-Imagine 智能体。咱们确立了如 表 1所示的 5 个通达式任务来进行试验:

表 1:Minecraft 任务描画

咱们将 LS-Imagine 和 VPT、STEVE-1、PTGM、Director、DreamerV3 等多种步调进行了比对,评估的目的包括在指定步数内完成任务的告成率以及平均完成任务所需要的交互步数。试验的完毕如 图 8、图 9和 表 2所示。

图 8:各项任务上告成率的对比

图 9:完成各项任务所需交互步数的对比

表 2:告成率和完成任务所需交互步数的数值完毕

咱们发现,LS-Imagine在对比模子中阐扬显耀优厚,尤其是在目的寥落分散的任务场景下,其上风愈加彰着。

同期,咱们在 图 10中展示了基于是曲期念念象情状序列重建的不雅测图像和功用性图的可视化完毕。其中第一溜流露了非凡式情状调遣前后的潜在情状,并将其解码回像素空间,以直不雅呈现情状变化;第二行可视化了由潜在情状重建的功用性图,以更明晰地通晓功用性图奈何促进非凡式情状调遣,以及它们是否好像提供有用的目的导向率领;终末一溜通过透明重叠的形态将功用性图阴事在重建的不雅测图像上,从而更直不雅的突显出智能体关怀的区域。

图 10:是曲期念念象序列可视化

这些可视化完毕标明,LS-Imagine 的是曲期宇宙模子好像左证现时视觉不雅测自顺应地决定何时进行弥远念念象。此外,生成的功用性图好像有用对皆与最终目的高度联系的区域,从而促进智能体扩充更高效的战术探索。

图 11:目的被躲藏或不行见情形下的功用性图

成绩于 MineCLIP 模子在大都众人示范视频上的预进修,咱们的功用性图生成步调好像在即使目的透顶被躲藏或不行见的情况下生成为探索提供有用率领的功用性图。举例,如 图 11(a)所示,在寻找村落的任务中,尽管村落在现时不雅测中不行见,功用性图依然好像提供明晰的探索目的,建议智能体向右侧的丛林或左侧山坡的辉煌区域进行探索。不异地,在 图 11(b)所示的挖矿任务中,尽管矿石经常位于地下,在现时不雅测中被躲藏,功用性图仍然能指引智能体向右侧的山体里面或前哨的大地下挖掘。这些例子好像充分知道,即便目的被躲藏,功用性图依然不错匡助智能体有用地进行探索。

5. 转头

咱们的职责建议了一种新颖的步调---LS-Imagine,旨在克服在高维通达宇宙中进修视觉强化学习智能体所濒临的挑战。通过推广念念象范围并运用是曲期宇宙模子,LS-Imagine 好像在巨大的情状空间中高效进行战术探索。此外,引入基于目的的非凡式情状调遣和功用性图,使得智能体好像更好地通晓弥远价值,从而擢升其有研究才调。试验完毕标明,在 Minecraft 环境中,LS-Imagine 比拟现存的步调获得了显耀性能擢升。这不仅突显了 LS-Imagine 在通达宇宙强化学习中的后劲,同期也为该范围的未来经营提供了新的启发。

论文的代码、checkpoint、环境建设文档均有提供,迎接全球 GitHub star ⭐ 、援用~

GitHub聚首:https://github.com/qiwang067/LS-Imagine

援用:

@inproceedings{li2025open,

title={Open-World Reinforcement Learning over Long Short-Term Imagination},

author={Jiajian Li and Qi Wang and Yunbo Wang and Xin Jin and Yang Li and Wenjun Zeng and Xiaokang Yang},

booktitle={ICLR},

year={2025}

}

沿途“第四瑟瑟

发布于:浙江省

Powered by taylor swift ai换脸 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024