AI框架
GPT-5.2-Codex – OpenAI推出的智能体编码模型
GPT-5.2-Codex 是 OpenAI 推出的智能体编码模型,专为复杂软件工程和防御性网络安全设计。模型是 GPT-5.2 的升级版,提升了指令遵循、长语境理解等能力,在代码重构、迁移等大型变更任务中表现出色。
TRELLIS.2 – 微软开源的40亿参数3D生成模型
TRELLIS.2是微软开源的40亿参数3D生成模型,专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构,能处理复杂拓扑结构(如开放表面、非流形几何),支持完整PBR材质建模。
Seed1.8 – 字节跳动推出的通用Agent模型
Seed1.8 是字节跳动推出的通用 Agent 大模型,具备强大的多模态能力,支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体,可在复杂工作流中高效完成任务。
SHARP – 苹果开源的3D场景生成AI模型
SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3D 结构和细节。
Step-GUI – 阶跃星辰推出的AI Agent系列模型
Step-GUI 是阶跃星辰推出的AI Agent系列模型,包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge。云侧模型擅长复杂任务处理,端侧模型轻量化,能在手机等本地设备运行,保护用户隐私。
SAM Audio – Meta开源的音频分割模型
SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual(PE-AV),基于Meta开源的Perception Encoder模型,能融合视听信息并进行精确的时间标注,实现高精度的音频分离。
Seedance 1.5 Pro – 字节推出的音画同步多模态视频模型
Seedance 1.5 Pro 是字节跳动 Seed 团队推出的原生音画同步的多模态视频生成模型。模型能根据文本提示生成高质量的视频内容,支持多样人声及音效,覆盖多种语言和方言。
万相2.6 – 阿里通义推出的新一代视频生成系列模型
万相2.6 是阿里通义推出的面向专业影视制作和图像创作的先进视频生成系列模型。模型支持角色扮演功能,可让用户通过上传视频和输入提示词,快速生成具有电影级运镜和叙事的短片。
Banana Slides – 开源AI PPT生成工具,能自然语言修改
Banana Slides 是开源的 AI 演示文稿生成工具,基于 nano banana pro 模型开发。以极简设计和强大的 AI 功能为亮点,帮助用户快速创建高质量的 PPT。用户可以通过输入主题、上传文档或提供大纲等方式启动项目,Banana Slides 会智能生成结构清晰的 PPT 大纲和内容。
通义百聆 – 阿里通义推出的企业级语音基座大模型
通义百聆是阿里通义实验室推出的企业级语音基座大模型,整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型,专为复杂环境下的语音应用设计,通过 Context 增强架构大幅降低幻觉率,解决串语种问题,支持热词动态注入和精准识别行业术语。
LightX2V – 商汤开源的实时视频生成推理框架
LightX2V 是商汤开源的行业首个能实现实时视频生成的推理框架。框架支持多种视频生成任务,如文本到视频(T2V)和图像到视频(I2V),集成多种先进视频生成技术。
UnityVideo – 快手可灵联合港科大开源的视频生成框架
UnityVideo 是香港科技大学联合快手可灵团队、清华大学等推出的新型多模态、多任务视频生成框架,能通过整合多种视觉模态(如分割、骨架、深度、光流等)和训练范式,提升视频生成模型对物理世界的理解能力。
OpenScreen – 开源的屏幕录制工具,Screen Studio的平替
OpenScreen 是开源免费的屏幕录制工具,是 Screen Studio 的平替。工具支持 Mac 和 Windows 系统,具备手动缩放、自定义缩放深度、裁剪视频、选择背景、添加注释等实用功能,
SCAIL – 智谱AI开源的影视级角色动画生成框架
SCAIL(Studio-grade Character Animation via In-context Learning)是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全上下文姿态注入机制,解决了复杂动作场景下角色动画的时空一致性问题,实现高保真度的角色动画生成。
RealVideo -智谱AI开源的实时流式视频生成系统
RealVideo 是智谱 AI 开源的实时流式视频生成系统,基于自回归扩散视频生成技术,RealVideo能将文本输入即时转化为连续、高质量的视频响应,实现与 AI 角色的实时视频对话。
Kaleido – 智谱AI开源的多主体视频生成框架
Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary Positional Encoding)机制,有效分离主体与背景信息,在多主体场景下保持主体特征一致性。
Gemini Deep Research – 谷歌推出的深度研究Agent
Gemini Deep Research 是谷歌推出的深度研究智能体,基于 Gemini 3 Pro 构建,专为长周期的内容收集与综合任务优化。智能体通过多步骤强化学习,能在复杂信息环境中以高精度自主导航,减少幻觉、提升报告质量。
Qwen3-Omni-Flash – 阿里通义推出的全模态大模型
Qwen3-Omni-Flash(Qwen3-Omni-Flash-2025-12-01) 是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式,实时生成高质量的文本与自然语音输出。
PosterCopilot – 南大联合LibLib.ai等推出的海报设计模型
PosterCopilot 是南京大学联合 LibLib.ai 和中科院自动化所共同推出的专业级海报设计大模型。模型通过独特的三阶段训练策略,赋予模型强大的布局推理和精准编辑能力,能实现从素材规划到最终成稿的全链路设计。
VoxCPM1.5 – 面壁智能开源的端到端语音合成模型
VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生成连续语音,支持 44.1kHz 高采样率音频克隆,生成效果更细腻。
粤公网安备 123456789号