你的位置:向日葵视频在线观看 > 哥要搞电信 > >短篇伦理小说 Ilya不雅点得证!仅靠掂量下一个token长入图像文本视频,智源发布原生多模态宇宙模子Emu3
热点资讯
哥要搞电信

短篇伦理小说 Ilya不雅点得证!仅靠掂量下一个token长入图像文本视频,智源发布原生多模态宇宙模子Emu3

发布日期:2024-10-23 11:04    点击次数:80

短篇伦理小说 Ilya不雅点得证!仅靠掂量下一个token长入图像文本视频,智源发布原生多模态宇宙模子Emu3

OpenAI 前首席科学家、合股首创东谈主Ilya Sutskever曾在多个场面抒发不雅点:短篇伦理小说

只好大致相当好的掂量下一个 token,就能匡助东谈主类达到通用东谈主工智能(AGI)。

诚然,下一 token 掂量已在大言语模子边界已毕了 ChatGPT 等冲突,然而在多模态模子中的适用性仍不解确。多模态任务仍然由扩散模子(如 Stable Diffusion)和组合款式(如结合 CLIP 视觉编码器和 LLM)所主导。

2024 年 10 月 21 日,智源酌量院认真发布原生多模态宇宙模子 Emu3。该模子只基于下一个 token 掂量,无需扩散模子或组合款式,即可完成文本、图像、视频三种模态数据的联接和生成。

Emu3 在图像生成、视频生成、视觉言语联接等任务中跳跃了 SDXL 、LLaVA、OpenSora 等驰名开源模子,然而无需扩散模子、CLIP 视觉编码器、预测验的 LLM等技能,只需要掂量下一个 token。

图注:在图像生成任务中,基于东谈主类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模子。在视觉言语理罢职务中,关于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,关于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。

Emu3 提供了一个强项的视觉 tokenizer,大致将视频和图像转换为翻脸 token。这些视觉翻脸 token 可以与文本 tokenizer 输出的翻脸 token 沿途送入模子中。与此同期,该模子输出的翻脸 token 可以被转换为文本、图像和视频,为Any-to-Any的任务提供了愈加长入的酌量范式。而在此前,社区短缺这么的技能和模子。

此外,受益于 Emu3 下一个 token 掂量框架的无邪性,平直偏好优化(DPO)可无缝应用于自回首视觉生成,使模子与东谈主类偏好保抓一致。

Emu3 酌量适度讲解注解,下一个 token 掂量可以动作多模态模子的一个强项范式,已毕高出言语自己的大边界多模态学习,并在多模态任务中已毕先进的性能。通过将复杂的多模态想象管理到 token 自己,能在大边界测验和推理中开释宏大的后劲。下一个 token 掂量为构建多模态 AGI 提供了一条远景繁密的谈路。

咫尺 Emu3 已开源了重要技能和模子。(开源模子和代码地址在文末)

Emu3 仍是上线便在酬酢媒体和技能社区引起了热议。

有网友指出,"这是几个月以来最蹙迫的酌量,咱们当今相当接近领有一个处治所稀有据模态的单一架构。"

" Emu3 是一种相当新颖的款式(至少在我看来是这么),它有契机将多模态兼并为一,只需将它们都视为 token 即可。诚然还处于初期,但演示恶果很可以。念念象一下,咱们可以无尽膨胀视频和生成多种模态。"

以至有网友评价:"也许咱们会获得一个真实盛开的 OpenAI v2?"

关于 Emu3 的意旨和影响,有批驳指出:" Emu3 将透澈改变多模态 AI 边界,提供无与伦比的性能和无邪性。"

" Emu3 在五行八作的平庸适用性和开源无邪性将为迷惑者和企业解锁东谈主工智能改换才智的契机。"

"关于酌量东谈主员来说,Emu3 意味着出现了一个新的契机,可以通过长入的架构探索多模态,无需将复杂的扩散模子与大言语模子相结合。这种款式访佛于 transformer 在视觉讨论任务中的变革性影响。"

" Emu3 的长入款式将带来更高效、更多功能的 AI 系统,简化多模态 AI 的迷惑和应用以及实践生成、分析和联接的新可能性。"

" Emu3 改写了多模态东谈主工智能的款式… Emu3 再行界说了多模态 AI,展示了粗浅可以校服复杂。多模态 AI 的将来变得愈加高超与强项。"

恶果展示 1. 视觉联接

Emu3 展现了强项的图像及视频的感知才智,大致联接物理宇宙并提供连贯的文本酬金。值得肃肃的是,这种才智是在不依赖于基础 LLM 模子和 CLIP 的情况下已毕的。

1.1 图像输入

用户问题 : Describe the landmark. 模子回答 : The image showcases the Brooklyn Bridge,最新伦理片 a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.

用户问题 : Please describe the image in detail.  

模子回答 : The image is the cover of a magazine titled " Parktakes, " which is the Fall 2017 issue. The cover features two individuals in a white kayak, paddling on a body of water. The kayak is positioned diagonally, with the two individuals seated towards the front. Both individuals are wearing life jackets, which are red with black straps, and they are holding paddles with orange blades. The person on the left is a woman with long dark hair, wearing sunglasses and a black top. The person on the right is a man with short hair, wearing a green shirt and a light-colored cap. They both appear to be smiling and enjoying their time on the water.  

The background shows a natural setting with trees and greenery, indicating that they are likely in a park or natural reserve. The water is calm, and the sky is not visible, suggesting a serene and peaceful environment.  

The magazine cover includes several text elements:  

1.  Title: " Parktakes " is prominently displayed at the top in large, bold, blue letters.  

2.  Fall 2017 Issue: The issue is marked in the top right corner in a smaller, white font.  

3.  Main Feature: " Enjoy Fall Adventures in Parks " is written in a large, bold, orange font, emphasizing the theme of outdoor activities.  

4.  Additional Features: The cover lists several topics covered in the magazine:  

  - " Birding, Boating, and Hiking "  

  - " Seasonal Festivals "  

  - " New Attractions "  

5.  Registration Information: At the bottom, there is a call to action to " Registration begins Aug. 1 for full classes " and a website link: " www.fairfaxcounty.gov/parks. "  

Analysis and Description  

The cover of " Parktakes " effectively conveys the theme of outdoor recreational activities, particularly in parks. The image of the two individuals in a kayak suggests that the magazine features content related to kayaking, canoeing, and other water sports. The inclusion of life jackets indicates a focus on safety and preparedness for water activities. The mention of seasonal festivals and new attractions implies that the magazine includes information on various events and attractions within the parks.  

The cover also highlights the magazine ’ s commitment to providing a comprehensive guide to outdoor activities, with a clear emphasis on safety and accessibility. The registration information suggests that the magazine is a resource for planning and participating in various outdoor activities, likely targeting a wide audience interested in parks and recreational activities.  

In summary, the magazine cover is designed to attract readers interested in outdoor adventures, safety, and seasonal events within parks. The use of a kayak and life jackets emphasizes the magazine ’ s focus on water sports and safety, while the inclusion of various features and registration information suggests a well-rounded resource for park visitors.

1.2 视频输入

用户问题 : What is the man doing in the video? 模子回答 : The man in the video appears to be performing a fire dance, a form of entertainment where a person uses fire to create dynamic and visually appealing movements. The sparklers he holds produce a mesmerizing display of light and shadows, capturing the intensity of his performance.

ai 裸舞

2. 图像生成

Emu3 通过掂量下一个视觉 token 来生成高质地的图像。该模子当然复古无邪的永诀率和不同格调。

3. 视频生成

与使用视频扩散模子以从噪声生成视频的 Sora 不同,Emu3 仅仅通过掂量序列中的下一个 token 来因果性的生成视频。

4. 视频掂量

在视频的高下文中,Emu3 可以当然地膨胀视频并掂量接下来会发生什么。模子可以模拟物理宇宙中环境、东谈主和动物。

Emu3 技能细节 1 数据

Emu3 是在言语、图像和视频夹杂数据模态上重新开动测验的。

言语数据:使用与 Aquila 模子疏通的言语数据,一个由中英文数据构成的高质地语料库。

图像数据:构建了一个大型图像文本数据集,其中包括开源辘集数据、AI 生成的数据和高质地的里面数据。通盘数据集经过了永诀率、图片质地、类型等方面的过滤过程。测验了一个基于 Emu2 的图像描述模子来对过滤后的数据进行标注以构建密集的图像描述,并诓骗 vLLM 库来加快标注过程。

视频数据:辘集的视频涵盖阵势、动物、植物和游戏等多个类别。

通盘视频处治经过包括了场景切分、文本过滤、光流过滤、质地评分等阶段。并使用基于图像描述模子微调获得的视频描述模子来对以上过滤后的视频片断打标文本描述。

2 长入视觉 Tokenizer

在 SBER-MoVQGAN 的基础上测验视觉 tokenizer,它可以将 4 × 512 × 512 的视频片断或 512 × 512 的图像编码成 4096 个翻脸 token。它的词表大小为 32,768。Emu3 的 tokenizer 在时期维度上已毕了 4 × 压缩,在空间维度上已毕了 8 × 8 压缩,适用于任何时期和空间永诀率。

此外,基于 MoVQGAN 架构,在编码器妥协码器模块中加入了两个具有三维卷积核的时期残差层,以增强视频 token 化才智。

3 架构

Emu3 保留了主流大言语模子(即 Llama-2)的辘集架构。不同点在于,其膨胀了 Llama-2 架构中的镶嵌层,以容纳翻脸的视觉 token。辘集中使用 RMSNorm 进行归一化。其还使用了 GQA 肃肃力机制、SwiGLU 激活函数和一维旋转位置编码(RoPE)等技能,并并去除了肃肃力模块中 QKV 层和线性投影层中的偏置。此外,还选拔了 0.1 的 dropout 率来擢升测验的褂讪性,使用 QwenTokenizer 对多言语文本进行编码。详备架构建立表。

4 预测验

在预测验过程中,率先要界说多模态数据时局。与依赖外部文本编码器的扩散模子不同,Emu3 原生集成了用于生成图像 / 视频的文本条款信息。在视觉和言语的固有 token 中新增了五个特殊 token 来兼并文本和视觉数据,觉得测验过程创建访佛文档的输入。生成的测验数据结构如下:

[ BOS ] {caption text} [ SOV ] {meta text} [ SOT ] {vision tokens} [ EOV ] [ EOS ]

其中, [ BOS ]  和  [ EOS ]  是 QwenTokenizer 中的原始特殊 token 。

终点新增的特殊 token 包括:

[ SOV ] 暗示视觉输入(包含图像和视频的 meta 信息部分)的开动

[ SOT ] 暗示视觉 token 的开动

[ EOV ] 暗示视觉输入的遣散。

此外,特殊 token [ EOL ] 和 [ EOF ] 动作换行符和换帧符插入到了视觉 token 中。元文本包含图像的永诀率信息,视频则包括永诀率、帧率和抓续时期,均以纯文本时局呈现。在构建联接数据时,Emu3 将部分数据中的 " caption text "字段移至 [ EOV ] token 之后。

测验计算:由于 Emu3 中的视觉信号已皆备转换为翻脸 token,因此只需使用圭臬的交叉熵亏欠进行下一个 token 掂量任务的测验。为了精采视觉 token 在学习过程中占据主导地位,对与视觉 token 讨论的亏欠加权 0.5。

测验细节:Emu3 模子在预测验时期诓骗相当长的高下文长度来处治视频数据。 为便于测验,选拔了张量并行(TP)、高下文并行(CP)和数据并行(DP)相结合的款式。同期将文本和图像数据打包成最大高下文长度,以充分诓骗绸缪资源,同期需要确保在打包过程中不会分割竣工的图像。

预测验过程分为两个阶段,第一阶段不使用视频数据,测验从零开动,文本和图像数据的高下文长度为 5,120;在第二阶段,引入视频数据,并使用 131,072 的高下文长度。

5 SFT 阶段

5.1 视觉生成

质地微调:在预测验阶段之后,对视觉生成任务进行后测验,以擢升生成输出的质地。使用高质地数据进行质地微调。

平直偏好优化:Emu3 在自回首多模态生成任务中选拔平直偏好优化(Direct Preference Optimization,DPO)技能,诓骗东谈主类偏好数据来擢升模子性能。

5.2 视觉言语联接

预测验模子经过两个阶段的视觉言语联接后测验过程:1 ) 图像到文本的测验以及 2 ) 提醒颐养。

第一阶段:将图像联接数据与纯言语数据整合在沿途,而与视觉 token 讨论的亏欠则在纯文本掂量中被忽略。

第二阶段:诓骗 LLaVA 数据荟萃的约 320 万个问答对进行提醒微调。低于 512 × 512 或高于 1024 × 1024 的图片将被颐养到较低或较高的永诀率,同期保抓相应的长宽比,而其他图片则保抓原始永诀率。

开源地址

除了先前经 SFT 的 Chat 模子和生成模子外,智源酌量院还在近日开源了 Emu3 生成和联接一体的预测验模子以及相应的 SFT 测验代码,以便后续酌量和社区构建与集成。

代码:https://github.com/baaivision/Emu3

形貌页面:https://emu.baai.ac.cn/

模子:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

将来标的

Emu3 为多模态 AI 指出了一条富裕念念象力的标的,有契机将 AI 基础款式管理到单一技能门路上,为大边界的多模态测验和推理提供基础。长入的多模态宇宙模子将来有平庸的潜在应用,包括自动驾驶、机器东谈主大脑、智能眼镜助手、多模态对话和推理等。掂量下一个 token 有可能通往 AGI。

* 本文系量子位获授权刊载,不雅点仅为作家总共。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 跟踪 AI 技能和居品新动态

一键三连「共享」、「点赞」和「在看」

科技前沿发扬日日相遇 ~  



上一篇:调教 母狗 拍浮宇宙杯上海站收官 中国队收成6金11银7铜
下一篇:短篇伦理小说 复仇夺冠!上海横沙誉民六夺分站赛冠军
友情链接: