开源的AI视频生成模型-LTX-Video

LTX-Video是由Lightricks公司推出的实时视频生成模型。基于扩散变换器（DiT）架构的开源项目，凭借其高效性、高质量输出和广泛的应用场景，为开发者提供了强大的工具，重塑视频创作生态。

实时生成能力
LTX-Video能以每秒24帧（24FPS）的速度生成768×512分辨率的视频，其生成速度甚至快于视频播放本身。例如，仅需4秒即可生成5秒的高质量视频，大幅缩短了传统视频制作的周期。
- 硬件优化：针对NVIDIA RTX 4090等消费级GPU和TPU系统优化，支持本地部署，无需专用设备即可流畅运行。
- 长视频一致性：通过独特的帧到帧学习技术，有效减少场景闪烁，确保长视频内容的连贯性。
先进架构与参数规模
基于DiT（Diffusion Transformer）架构，LTX-Video结合了扩散模型与Transformer的优势，支持文本、图像或视频到视频的多模态输入。最新版本LTX-Video 13B拥有130亿参数，展现出更强的生成能力和细节处理水平。

多模式生成与扩展功能
- 文本/图像到视频：用户可通过详细描述或关键帧设定生成动态内容，支持视频扩展、视频到视频转换等复杂任务。
- 关键帧控制：0.9.5版本新增关键帧条件支持，允许用户精准控制视频中的动作和场景过渡，提升创作自由度。
开源与商用许可
- 代码库和模型权重已在GitHub和Hugging Face开源，遵守Apache2.0开源协议。
- 自0.9.5版本起，新增OpenRail-M商业许可，允许企业免费用于商业项目，覆盖广告、影视后期等场景。

高效资源利用
- 采用8位量化技术（LTX-VideoQ8）和TeaCache缓存，在NVIDIA ADA GPU上实现3倍加速，且无精度损失。
- 支持AMD ROCm架构，扩展硬件兼容性。
开发者友好生态
- ComfyUI原生支持：提供可视化节点库（如RF-Edit、FlowEdit），简化工作流设计。
- 训练框架：集成Diffusion-Pipe多GPU并行框架，支持模型微调与定制化开发。

LTX-Video的成功离不开全球开发者的贡献。Lightricks鼓励社区通过GitHub提交改进，并计划进一步集成至LTX Studio平台，提供端到端的AI叙事解决方案。随着社区生态的完善，LTX-Video有望成为AI视频领域的“Linux时刻”，开启无限创新可能。

源代码：https://github.com/petershine/LTX-Video

官网：https://www.lightricks.com/

Demo：https://app.ltx.studio/ltx-video

微软开源AI标记语言POML