全球首个实时视频世界转换模型。

Decart发布了世界上首个实时的没有时长限制的，还支持任意视频流的扩散视频模型MirageLSD！

MirageLSD

不管你输入什么视频流、相机拍摄画面、视频聊天内容、电脑屏幕显示的东西，还是游戏画面。

MirageLSD都能在40毫秒以内，把它转换成你想要的任何风格的世界。

每个人好像都懂点魔法，能随意穿梭在不同的平行时空和幻想世界里。

最让我惊讶的是，不管时长多久，画面始终流畅，风格也没跑偏。

MirageLSD

随手拿起桌上的扫帚当麦克风，对着镜头比划，用盒子当混音台，对着镜头比划，无需昂贵设备就能开一场沉浸式直播。

这一切看起来都让人觉得不可思议，AI视频现在已经能像滤镜一样使用了，能实时智能调整画面的风格和内容，还能通过文字提示来随意控制。

01强势出圈，大佬投资

前特斯拉 AI 总监、OpenAI 创始团队成员安德烈・卡帕斯基于这项技术发表了一篇长文：

卡帕斯表示，自己已经成了MirageLSD项目的天使投资人，在他看来，这项技术用途广泛且实力很强。

也许这些都还只是开始，真正能“一出手就惊艳”的应用还没被发掘出来——这个领域值得我们尽情畅想！

02演示案例与体验地址

Decart也展示了一些构想的演示，把各种可能性都展现了出来：

比如在沙漠里滑雪

比如花30分钟写个游戏代码，然后让Mirage来处理画面？👇

Decart在推文中开玩笑说，用Mirage“根据提示词做出《GTA VII》，比《GTA VI》发售还快”。

目前Mirage已经正式上线，与其看着屏幕上的“魔法”，不如自己动手创造“魔法”。

Decart会持续发布模型升级和新功能，包括保持面部形象一致、支持语音控制和精确操控物体等。

同时，平台还会上线一系列新特性——像流媒体支持（能以任意角色进行直播）、游戏集成、视频通话等功能。

03“MirageLSD 技术原理

“魔法”背后的MirageLSD技术原理 MirageLSD主要在视频生成的时长和延迟这两个方面实现了突破。

它基于一个定制模型——实时流扩散（Live Stream Diffusion，LSD），这个模型能一帧一帧地生成画面，还能保持画面在时间上的连贯性。

在视频时长上，以前的视频模型生成20到30秒后，就会因为错误越积越多而让质量大打折扣。

在生成延迟上，那些模型往往需要花几分钟处理，才能输出几秒钟的视频。就算是现在最接近实时速度的系统，通常也是把视频分成一块块来生成，这样就难免会有延迟，根本没法用于需要交互的场景。

1.无限长视频生成

由于模型存在逐帧生成的特性，误差会像滚雪球一样越积越多，这样就限制了视频输出的长度。

1. 为了实现无限长的逐帧生成，团队做了这些改进：

2. MirageLSD基于Diffusion Forcing技术，实现一帧一帧地去除画面噪点；

同时引入了历史增强方法，在训练时故意对之前的画面帧做一些干扰，让模型学会提前判断并修正输入中的瑕疵，这样就能增强模型对逐帧生成中常见偏差的适应能力。

这两种技术结合起来，让LSD成为第一个能无限生成视频而不会出问题的模型——它生成稳定、能响应文字提示，而且始终和场景以及用户输入保持一致。

2.零延迟视频生成

响应性是指最坏情况下的响应延迟，即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上，导致实时交互无法实现。

要做到实时生成，每帧的生成时间得控制在40毫秒以内，这样才不会被人眼发现延迟。

所以他们宣称做了这些优化：

设计了定制的CUDA核心程序，减少不必要的消耗并提高处理效率；
用简化模型结构和精简参数的技术，降低每帧需要的计算量；
优化模型结构，让它和GPU硬件更匹配，从而发挥最大效率。

通过这些技术，响应速度比之前的模型快了16倍，能每秒生成24帧，实现实时视频生成。

3.扩散模型与LSD

扩散模型的工作原理是：通过一步步去除噪点，把随机的杂乱像素慢慢变成清晰的图像或视频。

在生成视频时，它通常是一次性生成固定长度的片段，这样有助于让画面在时间上保持连贯，但会带来延迟。

有些系统尝试用“逐段生成”的方式，一段一段按顺序出画面，来提高灵活性。但这种方式还是得等一段画面生成完才能响应新输入，没法满足实时交互的需求。

LSD用了不同的方法：它一次只生成一帧，采用按顺序生成的结构——后一帧依赖前一帧的内容和用户的文字提示。这种方式支持即时反馈、零延迟交互，还能一直生成视频，不用提前设定结束点。

每一步生成时，模型会接收之前生成的几帧画面、当前的输入画面和用户的文字提示，然后预测出下一帧。这一帧会立刻作为输入，用于生成再下一格画面。

这种按顺序反馈的机制，能让LSD保持画面在时间上的连贯，不断适应画面里的动作和内容变化，既能实时跟着用户的提示走，又能生成无限长的视频。

另外，它还能让LSD对输入做出即时响应——不管是文字提示变了，还是视频内容改了，都能立刻反应，真正做到零延迟。这正是实时编辑和转换画面能实现的关键。

4.技术缺陷与改进方向

首先，目前系统只能参考最近的几帧画面。如果能加入能记住更久之前画面的机制，有望提升长视频的连贯性，让角色形象、场景布局和长时间动作更稳定一致。

其次，虽然MirageLSD能通过文字改变画面风格，但对特定物体、某个区域或动作的精细控制还比较弱。

如果能加入更有条理的控制指令（比如标记关键点或场景），会有助于在实时场景中实现更细致、用户能精准控制的编辑操作。

另外，在内容合理性和画面结构稳定性上，尤其是面对风格大变的情况，还需要进一步优化。MirageLSD在风格变化太大时，可能会出现物体形状或场景布局扭曲的问题。

MirageLSD

01强势出圈，大佬投资

02演示案例与体验地址

03“MirageLSD 技术原理

1.无限长视频生成

2.零延迟视频生成

3.扩散模型与LSD

4.技术缺陷与改进方向

相关导航

热门网址

最新文章