Helios – 北大联合字节等开源的实时长视频生成模型
Helios是什么
Helios 是北京大学与字节跳动等联合推出的14B参数实时长视频生成模型,可在单张H100 GPU上以19.5 FPS生成分钟级视频。模型突破性地无需KV缓存、量化或因果掩码等常规加速技术,通过统一历史注入、深度压缩流和对抗分层蒸馏等创新,将计算成本降至1.3B模型水平。Helios原生支持文生视频、图生视频和视频续写,在质量与速度上均超越现有方案,代码与模型已开源。

Helios的主要功能
-
文本到视频:Helios支持文本到视频生成,根据文字描述直接生成高质量视频内容。
-
图片到视频:Helios支持图像到视频生成,可将静态图片转化为动态视频。
-
视频到视频:Helios支持视频到视频生成,能对已有视频进行续写或风格转换。
-
交互生成:Helios支持实时交互式生成,允许用户在生成过程中动态修改提示词。
-
长视频生成:Helios支持分钟级长视频生成,可稳定输出长达1440帧的连贯视频。
Helios的技术原理
- 统一历史注入:Helios通过将历史帧与噪声帧拼接作为输入,把双向预训练模型改造为自回归生成器。历史帧时间步固定为0保持干净,噪声帧参与去噪,表示控制机制让同一架构自动适配三种任务模式——历史全零时为文生视频,仅末帧非零时为图生视频,任意历史帧非零时则为视频续写。
- 引导注意力机制:Helios在自注意力层分别计算历史与噪声上下文的查询键值,通过头级放大令牌选择性调节历史信息强度;在交叉注意力层仅对噪声上下文注入文本语义,避免历史帧的语义重复叠加,解耦两类上下文的不同统计特性。
- 简易抗漂移策略:Helios采用相对位置编码将时间索引范围固定,消除长视频生成的位置偏移;强制保留首帧作为全局视觉锚点抑制颜色漂移;在训练时对历史帧随机施加曝光调整、噪声添加或模糊等扰动,模拟推理时的误差累积,从源头消除重复运动。
- 深度压缩流:Helios通过多期记忆分块将历史帧按远近采用不同压缩率,保持令牌预算恒定;采用金字塔统一预测校正器在多尺度潜空间分阶段采样,早期低分辨率确定全局结构,后期高分辨率细化细节,将14B模型的令牌计算量降至1.3B水平。
- 对抗分层蒸馏:Helios用自回归教师模型为基准,分阶段反向仿真获取多尺度估计,通过动态重噪声调度实现课程式学习,引入对抗后训练突破教师模型性能上限,最终将采样步数从50步压缩至3步且无需分类器引导。
Helios的项目地址
- 项目官网:https://pku-yuangroup.github.io/Helios-Page/
- GitHub仓库:https://github.com/PKU-YuanGroup/Helios
- HuggingFace模型库:https://huggingface.co/collections/BestWishYsh/helios
- arXiv技术论文:https://arxiv.org/pdf/2603.04379
Helios的应用场景
- 影视与广告制作:Helios的实时生成能力可大幅加速电影预告片、广告创意和动态分镜的制作流程,创作者能快速迭代视觉概念,将传统数小时的渲染时间缩短至分钟级。
- 游戏与交互娱乐:作为世界模型的基础组件,Helios支持实时生成无限长度的游戏场景和动态环境,为开放世界游戏、虚拟 reality 体验和交互式叙事提供连贯的视觉内容流。
- 社交媒体与内容创作:普通用户可用Helios将文字或图片瞬间转化为高质量短视频,降低专业视频制作门槛,赋能个人创作者快速产出电影级视觉内容。
- 设计与原型验证:设计师能借助Helios的图生视频和视频续写功能,将静态设计稿转化为动态演示,实时预览产品动画效果,加速迭代反馈循环。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号