Helios – 北大联合字节等开源的实时长视频生成模型

AI项目 2026-03-06

Helios是什么

Helios 是北京大学与字节跳动等联合推出的14B参数实时长视频生成模型，可在单张H100 GPU上以19.5 FPS生成分钟级视频。模型突破性地无需KV缓存、量化或因果掩码等常规加速技术，通过统一历史注入、深度压缩流和对抗分层蒸馏等创新，将计算成本降至1.3B模型水平。Helios原生支持文生视频、图生视频和视频续写，在质量与速度上均超越现有方案，代码与模型已开源。

Helios的主要功能

文本到视频：Helios支持文本到视频生成，根据文字描述直接生成高质量视频内容。
图片到视频：Helios支持图像到视频生成，可将静态图片转化为动态视频。
视频到视频：Helios支持视频到视频生成，能对已有视频进行续写或风格转换。
交互生成：Helios支持实时交互式生成，允许用户在生成过程中动态修改提示词。
长视频生成：Helios支持分钟级长视频生成，可稳定输出长达1440帧的连贯视频。

Helios的技术原理

统一历史注入：Helios通过将历史帧与噪声帧拼接作为输入，把双向预训练模型改造为自回归生成器。历史帧时间步固定为0保持干净，噪声帧参与去噪，表示控制机制让同一架构自动适配三种任务模式——历史全零时为文生视频，仅末帧非零时为图生视频，任意历史帧非零时则为视频续写。
引导注意力机制：Helios在自注意力层分别计算历史与噪声上下文的查询键值，通过头级放大令牌选择性调节历史信息强度；在交叉注意力层仅对噪声上下文注入文本语义，避免历史帧的语义重复叠加，解耦两类上下文的不同统计特性。
简易抗漂移策略：Helios采用相对位置编码将时间索引范围固定，消除长视频生成的位置偏移；强制保留首帧作为全局视觉锚点抑制颜色漂移；在训练时对历史帧随机施加曝光调整、噪声添加或模糊等扰动，模拟推理时的误差累积，从源头消除重复运动。
深度压缩流：Helios通过多期记忆分块将历史帧按远近采用不同压缩率，保持令牌预算恒定；采用金字塔统一预测校正器在多尺度潜空间分阶段采样，早期低分辨率确定全局结构，后期高分辨率细化细节，将14B模型的令牌计算量降至1.3B水平。
对抗分层蒸馏：Helios用自回归教师模型为基准，分阶段反向仿真获取多尺度估计，通过动态重噪声调度实现课程式学习，引入对抗后训练突破教师模型性能上限，最终将采样步数从50步压缩至3步且无需分类器引导。

Helios的项目地址

项目官网：https://pku-yuangroup.github.io/Helios-Page/
GitHub仓库：https://github.com/PKU-YuanGroup/Helios
HuggingFace模型库：https://huggingface.co/collections/BestWishYsh/helios
arXiv技术论文：https://arxiv.org/pdf/2603.04379

Helios的应用场景

影视与广告制作：Helios的实时生成能力可大幅加速电影预告片、广告创意和动态分镜的制作流程，创作者能快速迭代视觉概念，将传统数小时的渲染时间缩短至分钟级。
游戏与交互娱乐：作为世界模型的基础组件，Helios支持实时生成无限长度的游戏场景和动态环境，为开放世界游戏、虚拟 reality 体验和交互式叙事提供连贯的视觉内容流。
社交媒体与内容创作：普通用户可用Helios将文字或图片瞬间转化为高质量短视频，降低专业视频制作门槛，赋能个人创作者快速产出电影级视觉内容。
设计与原型验证：设计师能借助Helios的图生视频和视频续写功能，将静态设计稿转化为动态演示，实时预览产品动画效果，加速迭代反馈循环。