运营工具人工智能

MirageLSD

将任何视频、游戏或摄像头画面即时转换为全新的数字世界。全球首个基于实时直播扩散技术的世界转换模型。

标签:

Decart发布了世界上首个实时的没有时长限制的,还支持任意视频流的扩散视频模型MirageLSD! 


MirageLSD

不管你输入什么视频流、相机拍摄画面、视频聊天内容、电脑屏幕显示的东西,还是游戏画面。

MirageLSD都能在40毫秒以内,把它转换成你想要的任何风格的世界。

MirageLSD

 

每个人好像都懂点魔法,能随意穿梭在不同的平行时空和幻想世界里。

最让我惊讶的是,不管时长多久,画面始终流畅,风格也没跑偏。

MirageLSD

随手拿起桌上的扫帚当麦克风,对着镜头比划,用盒子当混音台,对着镜头比划,无需昂贵设备就能开一场沉浸式直播。

MirageLSD

这一切看起来都让人觉得不可思议,AI视频现在已经能像滤镜一样使用了,能实时智能调整画面的风格和内容,还能通过文字提示来随意控制。

 

01强势出圈,大佬投资

前特斯拉 AI 总监、OpenAI 创始团队成员安德烈・卡帕斯基于这项技术发表了一篇长文:

MirageLSD

卡帕斯表示,自己已经成了MirageLSD项目的天使投资人,在他看来,这项技术用途广泛且实力很强。  

MirageLSD

也许这些都还只是开始,真正能“一出手就惊艳”的应用还没被发掘出来——这个领域值得我们尽情畅想!  

 

02演示案例与体验地址

Decart也展示了一些构想的演示,把各种可能性都展现了出来:  

 

比如在沙漠里滑雪

比如花30分钟写个游戏代码,然后让Mirage来处理画面?👇

Decart在推文中开玩笑说,用Mirage“根据提示词做出《GTA VII》,比《GTA VI》发售还快”。  

目前Mirage已经正式上线,与其看着屏幕上的“魔法”,不如自己动手创造“魔法”。  

Decart会持续发布模型升级和新功能,包括保持面部形象一致、支持语音控制和精确操控物体等。

同时,平台还会上线一系列新特性——像流媒体支持(能以任意角色进行直播)、游戏集成、视频通话等功能。

03“MirageLSD 技术原理

“魔法”背后的MirageLSD技术原理  MirageLSD主要在视频生成的时长和延迟这两个方面实现了突破。

它基于一个定制模型——实时流扩散(Live Stream Diffusion,LSD),这个模型能一帧一帧地生成画面,还能保持画面在时间上的连贯性。  

在视频时长上,以前的视频模型生成20到30秒后,就会因为错误越积越多而让质量大打折扣。

在生成延迟上,那些模型往往需要花几分钟处理,才能输出几秒钟的视频。就算是现在最接近实时速度的系统,通常也是把视频分成一块块来生成,这样就难免会有延迟,根本没法用于需要交互的场景。 

 

1.无限长视频生成

MirageLSD
由于模型存在逐帧生成的特性,误差会像滚雪球一样越积越多,这样就限制了视频输出的长度。
1. 为了实现无限长的逐帧生成,团队做了这些改进:  
2. MirageLSD基于Diffusion Forcing技术,实现一帧一帧地去除画面噪点;
同时引入了历史增强方法,在训练时故意对之前的画面帧做一些干扰,让模型学会提前判断并修正输入中的瑕疵,这样就能增强模型对逐帧生成中常见偏差的适应能力。  
这两种技术结合起来,让LSD成为第一个能无限生成视频而不会出问题的模型——它生成稳定、能响应文字提示,而且始终和场景以及用户输入保持一致。  

2.零延迟视频生成

MirageLSD

响应性是指最坏情况下的响应延迟,即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上,导致实时交互无法实现。

要做到实时生成,每帧的生成时间得控制在40毫秒以内,这样才不会被人眼发现延迟。
所以他们宣称做了这些优化:  
  • 设计了定制的CUDA核心程序,减少不必要的消耗并提高处理效率;
  • 用简化模型结构和精简参数的技术,降低每帧需要的计算量;
  • 优化模型结构,让它和GPU硬件更匹配,从而发挥最大效率。  
通过这些技术,响应速度比之前的模型快了16倍,能每秒生成24帧,实现实时视频生成。   

3.扩散模型与LSD

扩散模型的工作原理是:通过一步步去除噪点,把随机的杂乱像素慢慢变成清晰的图像或视频。
在生成视频时,它通常是一次性生成固定长度的片段,这样有助于让画面在时间上保持连贯,但会带来延迟。
MirageLSD
有些系统尝试用“逐段生成”的方式,一段一段按顺序出画面,来提高灵活性。但这种方式还是得等一段画面生成完才能响应新输入,没法满足实时交互的需求。 
MirageLSD
LSD用了不同的方法:它一次只生成一帧,采用按顺序生成的结构——后一帧依赖前一帧的内容和用户的文字提示。这种方式支持即时反馈、零延迟交互,还能一直生成视频,不用提前设定结束点。  
每一步生成时,模型会接收之前生成的几帧画面、当前的输入画面和用户的文字提示,然后预测出下一帧。这一帧会立刻作为输入,用于生成再下一格画面。  
MirageLSD
这种按顺序反馈的机制,能让LSD保持画面在时间上的连贯,不断适应画面里的动作和内容变化,既能实时跟着用户的提示走,又能生成无限长的视频。  
另外,它还能让LSD对输入做出即时响应——不管是文字提示变了,还是视频内容改了,都能立刻反应,真正做到零延迟。这正是实时编辑和转换画面能实现的关键。   

4.技术缺陷与改进方向 

首先,目前系统只能参考最近的几帧画面。如果能加入能记住更久之前画面的机制,有望提升长视频的连贯性,让角色形象、场景布局和长时间动作更稳定一致。  
其次,虽然MirageLSD能通过文字改变画面风格,但对特定物体、某个区域或动作的精细控制还比较弱。
MirageLSD
如果能加入更有条理的控制指令(比如标记关键点或场景),会有助于在实时场景中实现更细致、用户能精准控制的编辑操作。  
另外,在内容合理性和画面结构稳定性上,尤其是面对风格大变的情况,还需要进一步优化。MirageLSD在风格变化太大时,可能会出现物体形状或场景布局扭曲的问题。 

相关导航